Wird aus Business Intelligence jetzt Big Data?

Zu diesem Schluss könnte man gelangen, wenn man die Ausrichtung einschlägiger Konferenzen und des Marketings vieler Business Intelligence Hersteller unter die Lupe nimmt. In welchen Aspekten die Big Data Bewegung eine evolutionäre Weiterentwicklung ist und welche neuen Aufgabenstellungen warten, beleuchtet dieser Artikel. Empfehlenswert auch unsere Expertenrunde „Big Data – Marketing-Hype oder echter Mehrwert?“, in der viele pointierte Meinungen zum Thema transportiert wurden.

Big Data – big problems, so fasst ein amerikanischer Blogger die aktuellen Entwicklungen im Bereich Data Warehouse zusammen. Dass das Internet sowie die zunehmende Analysetiefe von Kundeninteraktionen zu einem gewaltigen Wachstum der zu analysierenden Datenmengen geführt haben, ist eine Binsenweisheit. Neu sind viele der daraus folgenden Anforderungen an die technische Infrastruktur und an die Herangehensweise an das Thema Business Intelligence (BI) – ein Trend, der unter dem Schlagwort „Big Data“ gerade Karriere macht.

Das Wachstum der Datenmengen ist spätestens durch den Siegeszug des Internets exponentiell – die Datenbank hinter Facebook stand 2010 schon bei 21 Petabyte, und viele neue Datenquellen kommen jedes Jahr dazu. Aber auch abseits der Datenkrake Internet werden kräftig Daten gesammelt: Das potentiell auswertbare Datenvolumen, das ein vollbesetztes Flugzeug auf einem einzigen One-Way-Flug generiert, wird laut einer McKinsey Studie auf über 200 Terabyte geschätzt.

Entgegen der Erwartungshaltung, die angesichts des Begriffes entstehen könnte, ist es aber keineswegs alleine die Datenmenge, die im Zentrum der Big Data-Bewegung steht. Denn der bisherige Waffenschrank der Datenanalyse, der üblicherweise unter dem Begriff Business Intelligence zusammengefasst wird, setzt stark vorstrukturierte und genau konzipierte Datenmodelle voraus – und damit einen zeitraubenden Prozess.

Ein Grund, warum einschlägige Projekte sehr oft von der Realität überholt werden – Endanwender nennen bei Befragungen neben dem „Evergreen“ Abfragegeschwindigkeit die Geschwindigkeit bei strukturellen Änderungen und neuen Anforderungen als Hauptprobleme bei ihren heutigen BI-Initiativen.

Weniger Struktur, mehr Daten

 

Deswegen unterscheidet sich der Big Data Ansatz von bisherigen konventionellen Ansätzen in erster Linie dadurch, flexibel mit poly-strukturierten Daten umgehen zu können. Neben den klassisch strukturierten Daten, wie sie beispielweise von einem internen ERP- oder CRM- System generiert werden, kommen semi-strukturierte Dokumente, wie auf den Standards HTML oder XML aufbauende, oder auch völlig unstrukturierte Dokumente hinzu. Für letzteres sind Blogs ein gutes Beispiel: Viele Markenartikelhersteller versuchen herauszufinden und zu analysieren, wie oft und in welchem Kontext ihre Produkte in Blogs und Foren erwähnt werden. Und an diesem Beispiel lassen sich die Probleme, die Big Data zu lösen versucht, bestens zusammenfassen: Erstens: Es sind sehr viele Daten, diese sind nicht strukturiert, oder die Strukturierung liegt nicht im Einflussbereich des Unternehmens und kann sich dynamisch verändern. Zweitens: Die methodische Auswertung erfordert völlig neue Analysetechnologien: Im konkreten Fall Algorithmen, welche den Kontext – handelt es sich um eine Beschwerde, eine lobende Erwähnung oder einen Vergleich mit einem Konkurrenzprodukt – in allen wesentlichen Weltsprachen erkennen. Drittens: Dafür ist nicht nur zusätzliche Technologie erforderlich, sondern auch eine Kombination aus Verständnis für das Business-Problem und tiefgreifendem Verständnis für das technologisch sinnvoll Machbare. Einige Branchenanalysten sehen daraus das neue Berufsbild des „Data Scientists“ erwachsen.Zurück zur automatisierten Analyse der Blogs mittels Textanalyse – klingt vielleicht nach Zukunftsmusik, ist aber eine heute verfügbare Technologie. Hotline-Betreiber experimentieren bereits mit Spracherkennungs-Algorithmen, die aus der Tonalität des gesprochenen Wortes den Kontext erkennen und so eine emotional vorgetragene Beschwerde von einer Routineanfrage unterscheiden können. Gelingt es, mit derartigen Technologien beispielsweise ein verändertes Kundenverhalten deutlich früher zu erkennen, generiert sich zweifellos ein Wettbewerbsvorteil.

 

Derartige Szenarien tragen auch Unschärfe systemimmanent in sich: Im Gegensatz zu Business Intelligence Systemen, die auf internen Daten basieren, muss sowohl bei der Aggregation der Daten wie auch bei der Analyse mit teilweise unvollständigen Daten sowie Wahrscheinlichkeiten gearbeitet werden - ein Szenario, auf das die konventionellen Business Intelligence- und Data Warehouse-Lösungen heute völlig unzureichend vorbereitet sind. Der bekannte IT-Analyst Wolfgang Martin fasst es pointiert zusammen: „Der Single Point of Truth geht baden.“ Nachdem die Data Warehouse Initiativen seit 20 Jahren selbigen mit durchwachsenem Erfolg gesucht und als Ziel in den Fokus gestellt haben, handelt es sich um eine durchaus tiefgreifende Veränderung. Ist die Datenbasis aber breit genug, so lassen sich auch aus unvollständigen und unscharfen Daten gut verwertbare, wertvolle Erkenntnisse erzielen – und die Softwarehersteller müssen mit solchen Szenarien umgehen.

 

 

 

Definition von Big Data

 

 

 

Wie definiert sich also Big Data? Eine weltweit anerkannte, einheitliche Definition hat sich bis heute nicht etabliert. Dies liegt unter anderem daran, das alle maßgeblichen Hersteller von Software, Hardware und Appliance-Lösungen im „konventionellen“ Business Intelligence Bereich versuchen, die Big Data Welle mitzureiten und ihre eigenen Definitionen durchzusetzen.Im deutschsprachigen Raum ist die Definition des BARC Instituts, Würzburg, als führendem Branchenanalysten am populärsten:

 

 

 

Technologien für Big Data

 

 

 

Ist also Big Data eine neue Softwaregattung, die bisherige Investitionen in Business Intelligence und Data Warehouse vollständig ersetzt? In dieser Eindeutigkeit sicherlich nicht. Die etablierten Business Intelligence Hersteller erweitern zurzeit ihre Plattformen in Richtung besserer Tauglichkeit für Big Data–Szenarien. Beispielsweise sind viele Anbieter dabei, das Open Source Framework Hadoop in ihre Plattformen zu integrieren. Dennoch entstehen alternative Architekturen, viele daraus auch aus dem Open Source-Bereich, in dem es eine innovative Szene rund um Big Data gibt. Als Beispiele werden im Bereich der sogenannten no-SQL Datenbanken oft Couch DB und Mongo DB genannt, die als Datenbanken auf die Verarbeitung von unstrukturierten Daten ausgelegt sind. No-SQL bedeutet in diesem Zusammenhang übrigens „not only SQL“, auch hier steht eine Ergänzung etablierter Konzepte im Vordergrund.Einen wahren Hype erlebt zurzeit Hadoop, von seinem Erfinder Doug Cutting nach dem gelben Lieblingselefanten seines Sohnes benannt. Hadoop basiert auf einem verteilten File-System (HDFS), in dem sogenannte Map Reduce-Algorithmen ausgeführt werden können, welche die massiv parallele Verarbeitung von großen Datenmengen unterstützen und von Google populär gemacht wurden. Die Idee dahinter ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese zur massiv-parallelen Verarbeitung auf möglichst viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit erhofft man sich, das Problem, sehr große, unstrukturierte Datenmengen bei überschaubaren Investitionen in Hardware analysieren zu müssen, in den Griff zu bekommen. Das passiert als Batch-Verarbeitung und setzt damit einen Kontrapunkt zu den im klassischen Business Intelligence-Bereich immer populärer werdenden In-Memory Datenbanken.

 

&nb

Big Data bei den großen Softwareanbietern – am Beispiel Microsoft

Microsoft setzt wie einige andere größere Hersteller auf Hadoop als Schlüsselkomponente für Big Data. Als einer der ersten stellt Microsoft eine eigene Hadoop-Implementierung zur Verfügung, die auf Windows Server läuft und damit voll in bestehende Windows Server- und Active Directory-Infrastrukturen eingebettet werden kann. Hadoop ist aber auch für das Microsoft-eigene Cloud-Angebot „Azure“ verfügbar. Auf Grund der verteilbaren Architektur und dem Umstand, keine High-End-Hardware zu erfordern, sind Big Data-Szenarien mit Hadoop interessante Kandidaten für erste Cloud-Implementierungen. Des Weiteren bietet Microsoft Connectoren und Add-Ins an, mit denen Microsoft Hadoop in die bestehenden Analyse- und Business Intelligence Lösungen integriert werden kann. Dazu gehört ein Hadoop Connector für die parallele Data Warehouse Architektur PDW oder das „Hive Add-in“ for PowerPivot und Excel.

Hadoop ist ein in Java verfügbares Open Source-Framework, das zunehmend auch von großen Herstellern wie Microsoft, IBM oder SAS implementiert oder in eigenen Lösungen unterstützt wird. Außerdem wird Hadoop mittlerweile von verschiedenen professionellen Distributoren mit Support und passenden Dienstleistungen angeboten, wodurch sich die Verbreitung im kommerziellen Bereich beschleunigt. Hadoop ist keineswegs eine „Out of the box“-Lösung: Die Qualität der Analysen steht und fällt mit den komplexen Algorithmen, die pro Sachthema entwickelt werden müssen. Die Verfügbarkeit dieser Algorithmen und deren Erprobung in der Praxis ist momentan der wichtigste Entwicklungsschritt bei der Verbreitung des Konzeptes.