„Eine Chance für den Mittelstand“ Dr. Wolfgang Martin über Möglichkeiten von Cloud BI

Technologie, Zukunftsprognosen, Geschäftsmodelle – um möglichst viele spannende Aspekte des Themas Cloud aufzugreifen, hat Norman Bernhardt, Cloud-Spezialist bei pmOne, Experten in unterschiedlichen Funktionen befragt. Ihre Kernaussagen haben wir in eine Interview-Serie gepackt. Nach dem Auftakt mit Stefan Sexl, Vorstand der pmOne, kommt nun Analyse-Experte Dr. Wolfgang Martin zu Chancen, Herausforderungen und Vorbehalten von Cloud BI zu Wort.

 

Technologie, Zukunftsprognosen, Geschäftsmodelle – um möglichst viele spannende Aspekte des Themas Cloud aufzugreifen, hat Norman Bernhardt, Cloud-Spezialist bei pmOne, Experten in unterschiedlichen Funktionen befragt. Ihre Kernaussagen haben wir in eine Interview-Serie gepackt. Nach dem Auftakt mit Stefan Sexl, Vorstand der pmOne, kommt nun Analyse-Experte Dr. Wolfgang Martin zu Chancen, Herausforderungen und Vorbehalten von Cloud BI zu Wort.

 

Herr Dr. Martin, wie sieht Ihre Prognose für Data Warehouse Systeme auf Cloud Computing aus? 

 

 

In Zukunft sehe ich eine Co-Existenz zwischen dem klassischen Data Warehouse und Hadoop-Lösungen. Vor allem Performance Management im Finanzbereich – Kennzahlen, Reports, Dashboards, Ad-hoc-Analysen – sehe ich im Data Warehouse. Das wird meines Erachtens auch so bleiben, weil dort besonders qualitätsbereinigte Daten benötigt werden. Die Anforderungen an die Daten umfassen ein paar Terabyte, und die Qualität sowie Verfügbarkeit der Daten spielen eine entscheidende Rolle. Aus diesem Grund sehe ich die Data Warehouse-Lösung klassischer Art hier weiterhin auf dem Vormarsch. Der Bereich Analytics – von Data Discovery über prädiktive bis präskriptive Analyse – wandert dagegen in Hadoop, das aufgrund der jetzt vorhandenen SQL [Structured Query Language]-Schnittstelle zunehmende Akzeptanz verzeichnet. Inzwischen ist ja auch bekannt, dass Google mit dem Cloud Service – alternativ zu MapReduce – ganz neue Wege geht, die sich in Richtung von Shark und vergleichbaren Lösungen bewegen. Mit anderen Worten: Hadoop wird auf den berühmten Data Lake zurückgeführt werden, und alles, was offensichtlich an Architektur darauf kommt, wird über die Analytics-Plattform gelöst werden. Entsprechend findet man bei Cloudera Hortonworks auch ähnliche Lösungen wie Impala und andere. Es ist also an dieser Stelle alles im Fluss.

 

Sie sehen also eine Zweiteilung – einerseits der klassische Bereich mit Finanz- und strukturierten Daten im Data Warehouse, andererseits Big Data, entweder als Datenlieferant für Data Warehouse-Systeme oder für analytische Fragestellungen. Kann man das so sagen?  

 

 

Völlig richtig. Dabei gibt es eine Kopplung der beiden Systeme: Analytische Ergebnisse werden ins Data Warehouse einfließen, und für Analysen werden Unternehmensdaten aus dem Data Warehouse benötigt. Darüber hinaus gibt es meiner Meinung nach noch einen dritten Zweig, der konkret in Richtung dynamischer Data Mart geht. Wir ziehen aus dem Data Lake sowie aus dem klassischen Data Warehouse bestimmte Daten für immer wiederkehrende analytische Zwecke mit komplexen Datenstrukturen und großen Datenmengen. Sie setzen extreme Skalierbarkeit voraus. Teilweise betrifft das auch den Bereich der Echtzeitanalysen. Für hochkomplexe Daten stehen dabei NoSQL-Technologien zur Verfügung. Graph-Datenbanken bzw. multimodale SQL [Structured Query Language] bieten sich für hohe Geschwindigkeiten besonders bei komplexen Datenstrukturen an. Als Document-Store eignet sich Mongo-DB. Für klassische Analytics dienen spaltenorientierte Systeme wie HBase oder Cassandra. Letztendlich gehört auch SAP HANA in diese Kategorie. 

 

Kommen wir zum BI-Bereich. Was ist der Kerngedanke des angesprochenen Data Lake-Konzepts in Abgrenzung zum Data Warehouse?

 

 

Aus der Sicht von Google handelt es sich beim Data Lake sozusagen um einen riesigen, unstrukturierten Topf, der alle, für eine potenzielle Analyse nützlichen Daten beinhaltet. Anders als beim ETL[Extract, Transform, Load]-Verfahren aus dem Data Warehouse, das sich durch eine sorgfältige und streng definierte Überführung von Daten auszeichnet, verfügt der Data Lake über eine Complete Capture aller Daten. Ein weiterer Unterschied ist, dass das Data Warehouse mit ETL-Prozessen wie Staging Area u.a. befüllt wird. Der Data Lake auf der anderen Seite, also Hadoop-artige Konstrukte, werden mit ELT-Prozessen befüllt. Das heißt, die Extraktion und das Laden in den Data Lake stehen am Anfang, aber die Struktur, also das Schemadesign, kommt erst im Zusammenhang mit der Analyse zum Tragen. Im Unterschied zum Data Warehouse erfolgt die Transformation beim Data Lake somit erst zum Schluss.

 

Was verstehen Sie unter einem Cloud Data Warehouse bzw. Data Warehouse as a Service?

 

 

Das Cloud-Data Warehouse wird in einer Cloud betrieben anstatt auf einer dezidierten Hardware. Das Data Warehouse geht in Richtung Plattform – befindet sich genauer gesagt zwischen Infrastructure und Plattform, je nachdem, ob es sich nur um die Datenbank handelt – dann ist es eher Infrastructure – oder ob auch entsprechende Tools zur Verfügung stehen, um auf dem Data Warehouse zu arbeiten. Dies ist dann eher eine Plattform. Je nach Anbieter sind die Lösungen unterschiedlich. Wenn Sie von Database as a Service im strengen Sinn sprechen, handelt es sich um eine Infrastruktur.

 

Kennen Sie Hersteller, die Data Warehouse as a Service anbieten?

 

 

Ja, zum Beispiel Good Data. Bei der Definition des Data Warehouse unterscheidet man die reine Datenbank mit dem entsprechenden Modell von der kompletten Analytics-Umgebung mit allen BI-Tools. Good Data bietet eine Komplettumgebung an, also Analytics und Data Warehouse-Architektur. Und das bemerkenswerterweise sogar aus der Public Cloud. Meines Wissens ist Good Data auch der einzige Anbieter, der den gesamten Data Warehouse-Stack aus der Cloud vertreibt. Dabei sprechen wir von einem ganz normalen General Purpose Data Warehouse, ohne speziellen inhaltlichen Fokus.

 

Können Sie von cloudbasierten Data Warehouse-Projekte berichten?

 

Ich kenne zahlreiche Dienstleistungsunternehmen aus den USA, die Data Warehouse aus der Cloud anbieten. In Europa hält sich der Erfolg der amerikanischen Anbieter mit ihren Lösungen allerdings noch in Grenzen. Soweit ich weiß, bieten europäische Unternehmen Data Warehouse-Cloud-Service auch nur im Rahmen von anderen Services an.

Wie stehen Sie zum Thema Analytics im Cloud BI-Bereich?

Der Riesenvorteil im Big Data- und Data Discovery-Bereich ist, dass man in einer kostengünstigen Amazon-und-Co-Umgebung alles vorfinden kann, was für Big Data Analytics nötig ist. Eine Testlizenz von SAP HANA steht bei Amazon sogar kostenfrei zur Verfügung. Mit anderen Worten: Cloud BI ist heutzutage die beste Umgebung für alle Fragen rund um das Thema Big Data Analytics. Unternehmen können sich dort eine Sandbox aufbauen und ohne große monetäre Aufwendungen erste Erfahrungen in diesem Bereich sammeln. Das sind ideale Voraussetzungen, um sich auf Big Data Analytics vorzubereiten. 

Wer profitiert Ihrer Meinung nach besonders von Data Warehouse as a Service?

Einen großen Vorteil sehe ich für den Mittelstand. Unternehmen stoßen mit Excel an ihre Grenzen und könnten stattdessen ein Data Warehouse aufbauen und BI betreiben. Dies ist möglich, ohne eigenes Know-how im Hause haben zu müssen und ohne die Verantwortung für die gesamte Hard- und Software tragen zu müssen. Entsprechend entstehen für Unternehmen auch weniger Kosten. 

In der Praxis jedoch gestaltet sich diese Umstellung oftmals schwierig. Es ist ein gewisser Druck nötig, um die Unternehmen zu einer Umstellung auf Analytics zu motivieren. Unternehmen im Bereich Manufacturing im mitteleuropäischen Markt fehlt meist der Anlass, um Analytics einzusetzen. Bei der mangelnden Innovationsbereitschaft spielen der Faktor Mensch und vor allem die Fähigkeit, disruptiv zu denken, eine entscheidende Rolle.

 

Zu den wenigen Ausnahmen gehören große Unternehmen wie General Electrics und Bosch, die ganz gezielt in Richtung Internet der Dinge gehen – also den nächsten Schritt nach Big Data vollziehen. Sie haben eigene Software-Divisionen errichtet und beschäftigen sich auch mit Embedded Software; sind also sehr fortschrittlich auf diesem Gebiet.

 

Wie kann man sich „Internet der Dinge“ analytisch konkret vorstellen?

 

Im Wesentlichen geht es dabei um Sensortechnik. Laufende Anlagen und Maschinen sollen in Echtzeit kontinuierlich überwacht und Unregelmäßigkeiten so früh wie möglich erkannt werden. Im Sinne einer präventiven Wartung sollen Maschinen praktisch unendlich lange ohne Störfälle laufen können und dabei keinen Schaden nehmen. General Electrics ist aufgrund ihres konsequenten und strategischen Nachdrucks Vorreiter auf diesem Gebiet.

 

Internet der Dinge meint dabei konkret die Verbindung von Industrieanlagen und Maschinen über Sensortechnik mit dem Internet. Dies ermöglicht es – Stichwort Cloud Computing – die Sensordaten aus unterschiedlichen Quellen in die Cloud-Umgebung einzuspeisen und dort zu analysieren.

 

Wie sieht es mit der Sicherheit von Sensordaten aus?

 

 

Niemand hat etwas davon, Sensordaten zu klauen. Schließlich ist der Kontext der Daten unbekannt, und selbst zeitaufwändige Analysen der Daten sind wenig gewinnbringend, da es sich um Echtzeitdaten handelt, die schnell an Aktualität verlieren. Bis jetzt hat noch niemand ein Konzept entwickeln können, mit dem gehackte Sensordaten genutzt werden können. Außerdem können sie bei Bedarf auch verschlüsselt werden. Eine Gefahr bleibt allerdings bestehen: Jemand verschafft sich Zugang zu den Sensordatenströmen, um gezielt eingreifen zu können und so die entsprechenden Maschinen zu manipulieren. 

 

Angenommen ein Unternehmen möchte bestimmte BI-Komponenten an einen Cloud-Provider auslagern. Nach welchen Kriterien sollten Ihrer Meinung nach Cloud-Provider selektiert werden?

 

Zunächst einmal stellt sich die Frage, inwieweit die Daten unternehmenskritische Inhalte enthalten und in welchem Umfang diese geschützt werden müssen. Anhand der entsprechenden Sicherheitsanforderungen sollte dann der Cloud-Anbieter ausgesucht werden, welcher nach dem Auftragsdatenverarbeitungsgesetz die notwendigen Service-Level-Agreements bietet. 

Außerdem spielt im Cloud Computing die Exit-Strategie eine wesentliche Rolle. Diese stellt für mich einen der wichtigsten Entscheidungspunkte dar und wird leider vielfach vernachlässigt. Der Cloud-Anbieter muss garantieren können, dass die Daten an das Unternehmen zurückgehen und dass sie auch sicher und zuverlässig gelöscht werden können. Es muss also möglich sein, aus der Cloud-Umgebung wieder heraus zu kommen, und dieser Prozess muss geregelt sein. 

 

Einen wesentlichen Faktor bei der Entscheidung für die Cloud ist die Chance für den Mittelstand, überhaupt ein Data Warehouse zu bekommen. Insbesondere in den Branchen Manufacturing und Engineering können Unternehmen mit einer Cloud-Strategie nur gewinnen. Erstens gelten dort sämtliche Argumente für ein Data Warehouse und zweitens spricht für die Cloud, dass diese ohne Investitionen in Hardware, Softwarelizenzen oder Fachpersonal etabliert werden kann.

 

Gibt es besondere Herausforderungen zu beachten?

 

 

Never change a running system. Das Data Warehouse ist überaus komplex und hochgradig in die Unternehmens-IT integriert. Wenn sich ein Unternehmen also für die Adoption einer Cloud entscheidet, gehört das Data Warehouse notwendigerweise dazu.

 

Wie sehen Sie die Zukunft von Cloud BI?

 

 

Bisher ist der Markt noch klein, allerdings bin ich absolut überzeugt von dem Konzept. In Zukunft wird es kaum noch etwas anderes als Cloud Computing geben. Allen voran wird sich Hybrides Cloud Computing als IT-Modell der Zukunft durchsetzen.

 

Vielen Dank für das Gespräch.

 

 

Dr. Norman Bernhardt

Head of Software Products & Strategy

pmOne AG

Norman Bernhardt berät als Director Mobility & Travel Industry am Berliner Standort der pmOne AG Kunden der unterschiedlichsten Branchen zum Themengebiet Cloud, Data Warehouse / Business Intelligence. Darüber hinaus beschäftigt er sich intensiv mit der Erforschung der Potentiale des Cloud Computing für das Anwendungsfeld Business Intelligence. Im Rahmen seiner Promotion an der Steinbeis Hochschule Berlin erarbeitet Norman Bernhardt ein Entscheidungsmodell für den Einsatz von Business-Intelligence-Lösungen auf der Basis von Cloud-Computing-Technologien.

https://www.pmone.com •  Blog-Beiträge von diesem Autor