Definition von Data Warehouse

Data Warehouse

Beim Data Warehouse (DW oder DWH) handelt es sich um eine zentrale Sammlung von (Unternehmens)Daten, deren Inhalt sich aus verschiedenen Quellen speist und dann vor allem zwecks Analyse und betriebswirtschaftlicher Entscheidungshilfe dauerhaft gespeichert wird. Das strukturierte Data Warehouse fungiert häufig als Grundelement einer unternehmensweiten Strategie für Performance Management oder Business Intelligence Lösungen.

 

Der Erstellung eines Data Warehouse liegen zwei Leitgedanken zugrunde:

  • Die Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data Warehouse eine konsistente Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
  • Die Trennung der für das operative Geschäft genutzten Daten von denjenigen, die im Data-Warehouse für Zwecke des Berichtswesens (Reporting), der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.

Wofür wird ein Data Warehouse benötigt?

Eine gute und oft diskutierte Frage. Literatur dazu gibt es zuhauf; ebenso viele Meinungen zur „einzig richtigen“ Ausprägung und Umsetzung. Weitgehend Einigkeit dürfte darüber bestehen, dass die Zusammenfassung, Aggregation und Auswertung von verteilten Unternehmensdaten von zentraler Bedeutung hinsichtlich Prozessoptimierung, Wettbewerbsfähigkeit und strategischer Ausrichtung eines Unternehmens sind. Was die Vorgehensweise angeht, ist unsere Praxiserfahrung, dass der zweckgebundene Aufbau kleinerer Datenbestände (Data Marts), zum Beispiel für die bevorstehende Unternehmensplanung, durchaus sinnvoll sein kann. Früher oder später, nämlich wenn das Thema Performance Management auf eine breitere Basis im Unter-nehmen gestellt wird, landet man jedoch unweigerlich bei einem umfassenderen Data Warehouse-Ansatz. Deshalb sollte bereits bei einem „kleinen“ Ansatz immer eine solide inhaltliche und technische Architektur gegeben sein, was einen möglichen späteren Ausbau dann erleichtert.

Um den wichtigen Spezifikationsprozess zwischen Fachabteilungen und IT zu unterstützen, bietet die pmOne AG effektive Modellierungswerkzeuge an.

„Mit ihrer einheitlichen Vorgehensweise hat uns pmOne den günstigsten Weg aufgezeigt, eine für uns passende Lösung aufzubauen und technisch umzusetzen“ – sagt Thomas Stamm, beim Versicherer SOVAG verantwortlich für das Berichtswesen. Gemeinsam mit pmOne hat sein Team mit einem clever konzipierten Data Warehouse die Strukturen für ein schnelles und flexibles Reporting geschaffen.

Mehr dazu in unserem ausführlichen Anwenderbericht…

Data Warehouse - Extrahieren / Transformieren

Die Daten und Metadaten (Strukturen) werden im Rahmen des ETL-Prozesses (Extraktion-Transformation-Laden) aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data Warehouse geladen zu werden. Dieser Prozess wird meist in regelmäßigen Zeitabständen durchgeführt. Die Daten im Data Warehouse werden nicht nur nach inhaltlichen Aspekten gehalten, sondern auch langfristig gespeichert, um Vergleichsanalysen zu ermöglichen und eine eindeutige Planungsgrundlage zu schaffen.

Modellhafte Data Warehouse Architektur mit Staging Area, CDW und Star Schema. Klingt kompliziert, ist es manchmal auch. Die Integration heterogener IT-Systeme ist nach wie vor eine spannende Aufgabe. Unsere Experten helfen!

Data Lake als Ergänzung zum Data Warehouse

Im Kontext von Big Data haben Unternehmen vermehrt Zugang zu neuen Informationen wie beispielsweise unstrukturierten Dokumenten, Blogs und Bildern aus dem Web oder semistrukturierten XML-, HTML- und Sensor-Daten. In Abgrenzung dazu ist das in der Regel im Finanz- oder Controllingbereich aufgehängte Data Warehouse vornehmlich auf die Verarbeitung strukturierter Daten ausgelegt, die aus den betriebswirtschaftlichen Vorsystemen wie ERP stammen.

Unternehmen, denen es gelingt, diese unterschiedlichen Datenarten zu Analysezwecken miteinander zu verknüpfen, erhöhen ihren Analysequotienten, erhalten neue Erkenntnisse für die Unternehmenssteuerung und können sich so einen Wettbewerbsvorsprung erarbeiten. Insofern ist es keine Frage, dass auch Informationen, die über die betriebswirtschaftlichen Vorsysteme hinaus verfügbar sind, aufbereitet werden müssen.

Hier kommt der Data Lake als ergänzendes Konzept ins Spiel, mit dem das Data Warehouse zu einer Analytics Platform ausgebaut werden kann. Der Data Lake bietet die Möglichkeit der parallelen Verarbeitung in Kombination mit sehr hohen Speicherkapazitäten. Hier lassen sich große Datenmengen zunächst einmal ablegen, um sie bei Bedarf für den Aufbau von Prognose-Modellen u.ä. heranzuziehen. In Abgrenzung zum Data Warehouse ist der Data Lake also auf die Speicherung großer Datenmengen ausgelegt und sehr flexibel, was die Verarbeitung verschiedener Formate betrifft. Während beim Data Warehouse die Daten in der Regel so vorliegen, dass die Fachanwender aus den Finanz- und Controllingabteilungen sie mit passenden Werkzeugen eigenständig auswerten können, sind beim zielführenden Einsatz der heterogenen Data Lake-Informationen, von denen oftmals der Vertrieb und das Marketing profitieren, zunächst einmal die Spezialkenntnisse von Data Scientists gefragt.

Bei einem Data Lake verändert sich der ETL-Prozess zu einem ELT-Prozess. Nachdem Daten aus verschiedenen Systemen extrahiert wurden, werden sie in ihrer in ihrer jeweiligen Rohform (von un-, über semi- bis strukturiert) zunächst in den Data Lake geladen. Auf diesen Rohdaten werden nun Transformationen (zumeist Aggregationen) ausgeführt. Aus den Transformationen entstehen neue Informationen, die eine bestimmte Fragestellung beantworten und somit strukturiert sind. Sie werden dann in Dashboards, Reports, oder in interaktiven Tools dargestellt und analysiert.

Konzeptarchitektur einer Analytics Platform

Näherung an die Echtzeit

Die Frequenz der Beladung hat sich in den letzten Jahren mehr und mehr erhöht und erreicht dabei fast Real-Time. Aktuelle Daten aus den operativen Systemen werden nahezu zeitgleich mit dem in den operativen Systemen anfallenden Geschäftsvorfall in das Data Warehouse überführt. Insbesondere in Branchen wie Telekommunikation oder Einzelhandel wird auf diese Weise der Bedarf nach sofort verfügbaren Auswertungen erreicht, ohne dabei die operativen Systeme zu „belasten“. Dadurch wird es zudem möglich, unmittelbar auf auffällige Geschäftsvorfälle durch automatische Routinen zu reagieren – ein Konzept, das Analysten gerne als „Business Activity Monitoring“ (BAM) bezeichnen.

Die Grenzen zwischen Data Warehouse und Performance Management sind oft fließend. Wie verhält es sich mit Tagetik – Entweder-Oder, Koexistenz, Integration?

Erfahren Sie mehr in unserem Blog-Beitrag...  

Wir unterstützen Sie gerne...

Data Warehouse
Webinare Lösungen Kontakt