Das Parallel Data Warehouse (PDW) von Microsoft

Dieser Blog-Eintrag soll die verschiedenen Informationen zum Parallel Data Warehouse (PDW) zusammenführen und verständlich aufbereiten. Abseits von euphorischen Marketing-Ankündigungen ist das PDW eine Lösung, um die Anforderungen, die sich aus immer weiter wachsenden Datenmengen ergeben, besser in den Griff zu bekommen. Also, was ist das PDW? Da stelle ma uns mal janz dumm …

Das Parallel Data Warehouse vereint das marktführende Database Management System (DBMS) von Microsoft, den SQL Server 2012, mit der passenden Hardware von marktführenden Herstellern – nämlich von Dell oder HP - zu einer so genannten Data Warehouse Appliance. Das Angebot einer Appliance ist vereinfacht gesagt das Versprechen, dass Software und Hardware bereits bei der Installation bzw. Inbetriebnahme aufeinander abgestimmt sind. Die Idee bzw. das Ziel dieser Abstimmung ist es, die Leistungsfähigkeit, also die Performance zu optimieren. Denkbar ist ja, dass Leistungsbeschränkungen in der Hardware durch spezielle Algorithmen in der Software ausgeglichen sein können. Oder umgekehrt: Einschränkungen in der Software lassen durch eine andere „Verdrahtung“ in der Hardware umgehen.

Dieses – hier sehr laienhaft erklärte Konzept – ist nicht neu und weit verbreitet: Anbieter wie Teradata oder IBM bieten seit längerem Appliances an. Und auch SAP vertreibt mit SAP HANA eine High Performance Analytic Appliance, also eine Kombination von Software und Hardware.

Aber zurück zum PDW von Microsoft: Zum Einsatz kommt eine Massively Parallel Processing (MPP) Architektur, die sich im Grundsatz so erweitern lässt (scale-out), dass sehr große Datenmengen mit hoher Performance verarbeitet werden können. Nochmals laienhaft erklärt: Durch das Aufstellen eines neuen Racks mit Computing Nodes erweitert sich die Leistungsfähigkeit, ohne weitere Eingriffe in die Software.

Eine ausführlichere und weniger laienhafte Darstellung der im PDW verwendeten Architektur gibt die BARC Research Note über das Microsoft Big Data Angebot, die hier nach Registrierung für einen kostenlosen Download zur Verfügung steht.

Für „Experten“ empfehle ich auch meinen Blog-Eintrag mit weiteren Details zur Architektur des PDW: http://nexxtjump.com/2013/06/27/rock-your-data-with-sql-server-2012-parallel-data-warehouse-pdw-poc-experiences/
 

Was ist speziell am PDW?

Natürlich kommt dank der Verwendung des Column Store Index im PDW auch In-Memory-Technologie zum Einsatz. Positiv differenziert sich PDW von anderen Appliances insbesondere durch Polybase.

Mittels Polybase lassen sich relationale und nicht-relationale Daten - letztere werden häufig als „unstrukturierte Daten“ bezeichnet – miteinander verbinden. Nach einer Konfiguration der Metadaten in PDW kann ein Hadoop File System mittels SQL als Datenquelle angesprochen werden. Anwender können Datenquellen mit relationalen Datenbeständen und Hadoop-Daten mittels eines einzigen Select-Statements in einem Join abfragen. Polybase gestattet auch parallel lesende und schreibende Zugriffe auf Daten, die im Hadoop File System gespeichert sind.

Wie leistungsfähig ist PDW in der Praxis?

Microsoft nennt in seinem „Solution Brief“ zum PDW (der hier zum Download bereit steht) beeindruckende Zahlen zur Leistungsfähigkeit des PDW. Die Zahlen sind so beeindruckend, dass man es kaum glauben mag.

Aber ein auführlicher Proof-of-Concept (PoC), der bei einem Unternehmen gemacht wurde, dessen Name nicht genannt werden darf, ergab ebenfalls überaus beeindruckende Ergebnisse:

  • Ladeprozesse mit den SQL Server Integration Services (SSIS) sind im PDW bis zu 6x schneller,
  • Ladeprozesse mit Transact-SQL (T-SQL) sind sogar bis zu 20x schneller,
  • Datenbankabfragen sind im Durchschnitt bis zu 8x schneller.
  • PDW erreicht eine Datenkompression um den Faktor 50 im Vergleich zu nicht komprimierten Daten
  • Die Performance und die Speicherkapazität skalieren tatsächlich linear beim „Einklinken“ neuer Computing Nodes
  • Eine Abstraktionsschicht vereinfacht die Datenbankadministration durch die automatische Erstellung und Verteilung von „database files“ und „database file groups“, so dass Indizes nur selten zum Ein-satz kommen.

Details zum PoC mit PDW finden sich in meinem Blog-Eintrag: http://dwjunkie.wordpress.com/2013/06/27/rock-your-data-with-sql-server-2012-parallel-data-warehouse-pdw-poc-experiences/

Was kostet PDW?

Die beliebte und häufig sehr bald gestellte Frage nach den Kosten ist immer eine Frage nach dem Nutzen bzw. nach dem Kosten-Nutzen-Verhältnis. Der Nutzen einer Appliance ist so offensichtlich, dass man sich fragt, warum vor der Implementierung eines Data Warehouses Software und Hardware getrennt gekauft werden? Liegt es vielleicht an den unterschiedlichen Zuständigkeiten in den Anwenderunternehmen? Oder haben Hersteller von Hardware und Software unterschiedliche Interessen? Übrigens konnten bis Mitte der 1970er Jahre Hardware-Server nicht ohne Software gekauft werden.

Microsoft verspricht den niedrigsten Preis pro Terabyte. Insofern ist jedes Unternehmen, dessen vorhandenes Data Warehouse an Leistungsgrenzen stößt, gut beraten, sich mit PDW intensiv zu befassen. Ein Preis lässt sich aber erst ungefähr nennen, wenn die Anforderungen definiert sind.

Such author doesn't exist!