Data Lake und Big Data Analytics

Wenn es um Data Lake und  Big Data geht, haben Unternehmen bereits seit mehreren Jahren folgende vier Herausforderungen:

 

  • Die Menge der anfallenden Daten, die sinnvoll ausgewertet können und sollen, wächst stark.
  • In der Menge der anfallenden Daten gibt es viele unstrukturierte oder semistrukturierte Daten, welche die mittels eines Datenmodells vollständig strukturierten Daten ergänzen.
  • Die Menge der anfallenden Daten soll für eine sinnvolle Auswertung immer aktueller sein bis hin zur Anforderung nach Auswertungen in Echtzeit, also Realtime.
  • Zur gezielten Beantwortung von Fragestellungen werden Abfragen zur sinnvollen Auswertung immer komplexer.

Diesen Anforderungen am besten gerecht wird die Idee oder das Konzept des Data Lake. Ein Data Lake ist ein Sammelbecken oder Aufbewahrungsort – im Englischen ein Repository, das große Mengen an Daten in ihren ursprünglichen Formaten beinhaltet. In einem Data Lake können Anwender auf diese Rohdaten in ihren nativen Formaten für Analysen zugreifen. Es ermöglicht Organisationen, beliebige Daten aus dem Unternehmen einfach zu sammeln, in Beziehung zueinander zu setzen, neue externe Datenquellen zu erkennen und daraus Mehrwerte zu generieren.

Data Lake- Sammelbecken für große Mengen an Daten
Ein Data Lake ist ein Sammelbecken für große Mengen an Daten in ihren ursprünglichen Formaten.

Vorteile eines Data Lake

Um die Vorteile zu verstehen, sollte man sich (wieder) bewusst machen, dass Daten mittlerweile ein Produktionsfaktor in wirtschaftlichen Betrieben geworden sind. Dabei ist weniger der Umfang der Datenmenge entscheidend, sondern auch die Art der Daten. Wertvolle Informationen finden sich nicht mehr nur in klassischen Dokumenten. Sie finden sich überdies in Logdateien, Sensordaten und Daten aus sozialen Medien. Solche Daten stehen in einem Data Warehouse oder anderen bisher verbreiteten Datenmanagement-Lösungen nicht für Auswertungen zur Verfügung.

 

Die Vorteile eines Data Lake sind die hohe Flexibilität und Skalierbarkeit, von der Anwender seit der Verfügbarkeit des Hadoop Framework auf einfache Weise profitieren. Mitunter werden die Begriffe „Analytische Plattform“ und „Data Lake“ synonym verwendet. Wenn es um die Analyse großer Datenmengen geht, also um Big Data Analytics, dann bringt es die ideale technologische Basis mit.

Schema on read versus schema on write

Eine Data-Lake ist immer auch eine Investition in die Zukunft, denn: Wir wissen heute nicht, was wir morgen wissen wollen. Deshalb wird im Data Lake die Idee des „schema on read“ verfolgt: Dabei erfolgt eine Datenaufbereitung oder Datenstrukturierung erst dann, wenn ein Fachanwender, Data Analyst oder Data Scientist die von ihm gewünschten Analysen durchführen möchte.

 

Bei einem Data Warehouse gilt die Idee des „schema on write“: Die verfügbaren Daten werden mittels Prozessen für die Extraktion, Transformation und das Laden (ETL) in einer vordefinierten Struktur (schema) abgespeichert. Das erlaubt eine schnelle Aufbereitung der Daten für Reportingzwecke. Die Art der Analysen, die ein Fachanwender, Data Analyst oder Data Scientist durchführen konnte, unterliegen dadurch den Restriktionen, die sich aus der Struktur ergeben.

 

Ein „schema on write“ gilt seit vielen Jahren oder Jahrzehnten als einzig adäquate Vorgehensweise, damit die Abfragen (Queries), die für Analysen notwendig sind, kurze Antwortzeiten haben, also performant sind. Aber neue Algorithmen, wie zum Beispiel der Map-and-Reduce-Algorithmus, in Verbindung mit neuen, leistungsstarken Prozessoren sowie Scale-out-Architekturen, erlauben neue Wege zu gehen, und ermöglichen performante Analysen mit der Idee des „schema on read“.

Aufbau eines Data Lake Framework

Ein Data Lake in der Unternehmenspraxis enthält neben den Data Lake Repositories auch Module für die Data Ingestion and Transformation, also für die Aufnahme von Daten in den Data Lake. Hier geht es um möglichst einfache Schnittstellen zu den Quellsystemen und simple Prozesse zur Datenübernahme, die weitgehend automatisiert ablaufen, also ohne Benutzereingriffe.

Für den Anwender werden die Zugriffe auf den Data Lake dreigeteilt: Es gibt ein Raw Data Interface für Advanced Analytics und Self-Service Business Intelligence; ein View-based Interface für den Zugriff auf vordefinierte Berichte (Reports), Abfragen (Queries) und Data Marts, die als „Spielwiese“ (sandbox) dienen. Außerdem gibt es ein Modul für Data Search & Governance, also für die Datensuche und die Verwaltung von Daten.

Für die Realisierung eines Data Lake Framework kommt im Normalfall immer ein Hadoop Framework zum Einsatz, wobei „Hadoop“ nicht mit „Data Lake“ identisch ist und sein kann.

Data Lake Framework
Data Lake Framework

Profitieren Sie von unserer Kompetenz beim Thema Data Lake und Big Data Analytics

Wir unterstützen Unternehmen beim Thema Big Data Analytics und Data Lake mit folgenden Leistungen:

 

  • Konzeption, Design und Sizing von Data Lake Architekturen
  • Auswahl von geeigneten Werkzeugen und Lieferanten
  • Setup und Konfiguration der Architektur und der Tools
  • Data Ingestion und Transformation von Daten
  • Implementierung von datengetriebenen Anwendungen
  • Maintenance, Support und Enhancements

 

Die Experten von pmOne haben umfassendes Know-how zu Apache Hadoop mit dem Hadoop Distributed File System (HDFS), zu Apache Storm zur Verarbeitung von Datenströmen in Echtzeit und Apache Spark.

Boris Cordes
VP BI & Analytics Platform
pmOne AG
Freisinger Str. 9
85716 Unterschleißheim
+49 89 4161761-0
Boris Cordes
Stefan Kaffl
Product Manager cMORE
pmOne AG
Freisinger Straße 9
85716 Unterschleißheim
+49 89 4161761-0
Stefan Kaffl