Aufbau eines Data Lake Framework
Ein Data Lake in der Unternehmenspraxis enthält neben den Data Lake Repositories auch Module für die Data Ingestion and Transformation, also für die Aufnahme von Daten in den Data Lake. Hier geht es um möglichst einfache Schnittstellen zu den Quellsystemen und simple Prozesse zur Datenübernahme, die weitgehend automatisiert ablaufen, also ohne Benutzereingriffe.
Für den Anwender werden die Zugriffe auf den Data Lake dreigeteilt: Es gibt ein Raw Data Interface für Advanced Analytics und Self-Service Business Intelligence; ein View-based Interface für den Zugriff auf vordefinierte Berichte (Reports), Abfragen (Queries) und Data Marts, die als „Spielwiese“ (sandbox) dienen. Außerdem gibt es ein Modul für Data Search & Governance, also für die Datensuche und die Verwaltung von Daten.
Für die Realisierung eines Data Lake Framework kommt im Normalfall immer ein Hadoop Framework zum Einsatz, wobei „Hadoop“ nicht mit „Data Lake“ identisch ist und sein kann.