Cloud-basierte Big Data-Anwendungen: Anforderungen und Lösungsangebote

Mit Big Data und Cloud Computing treffen zwei Hype-Themen der IT aufeinander, die sich – richtig kombiniert – prima ergänzen. Doch inwieweit schaffen es die Anbieter, die sich bietenden Potenziale an den Bedürfnissen der Anwender auszurichten? Offenbar setzen sie auf Schlüsseltechnologien wie Hadoop und bieten zugleich sehr individuelle Big Data-Lösungen und Frameworks an. Norman Bernhardt und Viktor Adler geben einen Überblick, indem sie die Anforderungen von Anwendern den gängigsten Lösungsangeboten gegenüberstellen.

Anbieter wollen mit ihren Produkten den neuen Bedarf für die Analyse von großen und sehr großen Datenmengen decken, die mitunter Exabyte erreichen. Es stellen sich dabei unter anderem folgende Fragen: Was verstehen potenzielle Kunden und Anwender konkret unter Big Data und welche Erwartungen haben sie in diesem Zusammenhang? Gehen die Anbieter mit ihren Lösungen wirklich auf die Anforderungen der Kunden ein? Wie sehen bereits bestehende Big Data-Architekturen aus und nutzen sie die Möglichkeiten von Cloud Computing?

 

Geringe Unterschiede zwischen Theorie und Praxisanforderungen

Je nach Perspektive, aus der man Big Data betrachtet, werden verschiedene Aspekte damit in Verbindung gebracht. Aus der wörtlichen Übersetzung des Begriffes Big Data könnte geschlossen werden, dass es sich hierbei rein um die Arbeit mit oder um die Verwaltung von großen Datenmengen handelt. 

Eine IBM-Studie, bei der 1144 Probanden befragt wurden, zeigt, dass mehr als nur „große Datenmengen“ damit assoziiert werden. Tatsächlich belegt dieser Aspekt lediglich Platz sechs im Ranking der Antwortmöglichkeiten auf die Frage, wie Experten den Begriff Big Data definieren. An der Spitze mit 18 Prozent rangiert die Aussage „A greater scope of information“, gefolgt von „New kinds of data and analysis“ (16 Prozent) und „Real-time information“ (15 Prozent). Der analytische Aspekt und die Erfassung sowie Darstellung von Informationen mittels neuer Technologien und Ansätze spielt also ebenfalls eine wichtige Rolle bei der Definition von Big Data

Allgemein bezeichnet zum Beispiel der Deutsche Bundestag Big Data als „ein Bündel neu entwickelter Methoden und Technologien, die die Erfassung, Speicherung und Analyse eines großen und beliebig erweiterbaren Volumens unterschiedlich strukturierter Daten ermöglichen“. Wie die Umfrage gezeigt hat, fließt auch der Aspekt der Realtime- oder Near-Realtime-Analyse von Streaming-Daten mit in die Diskussion ein. In der Literatur als Grundlage von Big Data herangezogen und dementsprechend auch in der Praxis allgemein anerkannt wird die Definition des Begriffs mittels dreier Dimensionen: Volume (Datenmenge), Variety (Datenvielfalt) und Velocity (Geschwindigkeit).

Verschiedene Organisationen oder Unternehmen nennen darüber hinaus noch weitere Dimensionen von Big Data. Ein Beispiel für eine solche Erweiterung ist Veracity. Hier wird die „Wahrhaftigkeit“ von Daten thematisiert. Im Zusammenhang mit Big Data ist damit Bewertung der Daten bezüglich Richtigkeit sowie Verlässlichkeit gemeint. Auch der Umgang mit ungenauen oder unscharfen Daten fällt in diesen Bereich. Damit Big Data tatsächlich Mehrwert, also Value, erbringen kann, muss auch die Dimension „Analyse“ abgedeckt werden. BITKOM nennt diesen Aspekt als eine weitere Facette von Big Data mit dem Namen Analytics und beschreibt ihn als „[…] Methoden zur möglichst automatisierten Erkennung und Nutzung von Mustern, Zusammenhängen und Bedeutungen“. Als Bestandteil werden „statistische Verfahren, Vorhersagemodelle, Optimierungsalgorithmen, Data-Mining [und] Text- und Bildanalytik“ aufgezählt.

Das Big Data Dimensionsmodell (Quelle: Gesellschaft für Informatik)

 

Je nach Branche, Fachbereich und Anwendungsfall unterscheiden sich die Ziele und Interessen eines Unternehmens in Bezug auf Big Data stark voneinander. So ist für die Marketingabteilung etwa die Auswertung von Internetzugriffen in Echtzeit ein vordringliches Ziel, während eine Produktionsabteilung Sensordaten sinnvoll auswerten will.

 

Übersicht zu Anforderungen an Big Data

In der Übersicht wird deutlich, dass sich die grundlegenden Anforderungen, die aus der Begriffsdefinition abgeleitet werden konnten, größtenteils mit den Einschätzungen der Befragten decken. Zusätzlich zu den zwei Umfragen werden exemplarisch drei konkrete Szenarien bzw. Projekte aus einer Sammlung von über 30 Projekten aus dem BITKOM-Leitfaden zu Big Data herangezogen, die typische Big Data-Herausforderungen widerspiegeln.

 

Cloud Computing als Enabler für Big Data-Analysen

BITKOM definiert Cloud Computing als eine „[…] Form der bedarfsgerechten und flexiblen Nutzung von IT-Leistungen […], die in Echtzeit über das Internet bereitgestellt werden und nach Nutzung abgerechnet werden“. Zu diesen Leistungen gehört zum Beispiel die Bereitstellung von Speicher- oder Rechnerkapazitäten. Das National Institute of Standards and Technology (NIST) ergänzt die Definition von Cloud Computing um die Bereitstellungsmodelle „Infrastructure as a Service“ (IaaS), „Platform as a Service“ (PaaS) und „Software as a Service“ (SaaS). Zusätzlich lassen sich auch unterschiedliche Arten von Clouds differenzieren (Public, Private, Hybrid).

Die Vorteile von Cloud Computing im Zusammenhang mit Big Data sind offensichtlich: Die Auswertung von großen Datenmengen wird in zahlreichen Punkten unterstützt. Auch kleinere Unternehmen können ohne größeren finanziellen Aufwand auf dieses IT as a Service-Angebot zurückgreifen. Aufgrund der klar definierten Servicemodelle ist es Unternehmen möglich, ohne Entwicklungsumgebung (PaaS) eigene Big Data-Produkte aufzubauen. Große Datenmengen können ohne eine eigene Serverfarm (IaaS) gespeichert und verarbeitet werden. Schließlich lassen sich Daten mittels bereits bestehender und über die Cloud bereitgestellter Standardsoftware auf virtualisierten Umgebungen analysieren (SaaS). 

Außerdem bieten Big Data-Plattformen bereits ausgereifte Dienste, die in einer Cloud-Struktur zur Verfügung stehen und kein explizites internes Know-how erfordern.

 

Die Angebote von Microsoft und IBM für Big Data in der Cloud

Von Anwendern werden vor allem die großen Unternehmen wie IBM, SAP, Oracle und Microsoft als Anbieter von Big Data-Lösungen wahrgenommen. Auf die Frage, welche Dienstleister mit dem Schlagwort Big Data in Verbindung gebracht werden, sind laut „BITKOM Cloud Monitor“ IBM mit 48 Prozent und Microsoft mit 29 Prozent auf den ersten Plätzen gelistet. Daher bietet sich eine genauere Betrachtung der Cloud-basierten Big Data-Lösungen von Microsoft und IBM an. Die Tabelle zeigt, welche Produkte aus den Portfolios beider Anbieter aufgrund ihrer Hauptfunktionen für Big Data-Anwendungen in der Cloud in Betracht kommen.

 

Übersicht der untersuchten Cloud-basierten Big Data-Lösungen

Laut dem Cloud Vendor Benchmark 2013, einer Studie der Experton Group, liegt Microsoft zusammen mit IBM auf den vorderen Positionen, was sowohl Portfolio-Attraktivität als auch Wettbewerbsstärke auf dem Cloud-Markt betrifft. Zwar hat Microsoft bereits längere Zeit Lösungen im Portfolio, die Big Data ergänzen, eine gezielte Behandlung von Big Data-Anforderungen stand dabei aber bisher noch aus. Mit dem Produkt Windows Azure HDInsight spricht Microsoft nun auch direkt den Big Data-Markt in Kombination mit Cloud Computing an. Bei HDInsight handelt es sich um eine auf Windows-Rechner zugeschnittene Distribution von Hadoop. Sie kann entweder auf eigenen Rechnerclustern oder auf Microsofts Windows Azure Cloud-Plattform betrieben werden. Mit der Erweiterung des SQL Server namens StreamInsight wird die Möglichkeit geschaffen, kontinuierliche Datenflüsse zu analysieren und eigene Anwendungen zur Überwachung von Streaming-Daten zu entwickeln. 

Zusätzlich sei an dieser Stelle Project Passau (offiziell: Microsoft AzureML) genannt. Dabei handelt es sich um eine sogenannte Machine Learning-Plattform, die Analysten mittels einfacher Handhabung Ad-hoc-Prognosen anhand bereits vorhandener Datenbestände ermöglichen soll. Die auf Windows Azure basierende Technologie wurde erst kürzlich in einer Public Preview vorgestellt.

IBM ist der aktuelle Marktführer im Bereich Big Data. Einem Wikibon-Beitrag zufolge hat das Unternehmen mit seinem Big Data-Portfolio im Jahr 2012 einen Umsatz von etwa 1,3 Milliarden US-Dollar erwirtschaftet. Bei der Big Data-Lösung von IBM handelt es sich um keine Stand-Alone-Lösung, sondern – wie auch bei Microsoft – um eine Kombination aus mehreren Produkten. Dazu gehört unter anderem die Anwendung IBM InfoSphere BigInsights (kurz: IS BigInsights) für die Analyse von beliebigen Datentypen mittels Hadoop-betriebener Rechnercluster. Für die kontinuierliche Analyse von Streaming-Daten in Echtzeit bietet IBM das Produkt IBM InfoSphere Streams (kurz: IS Streams). Vor kurzem hat IBM begonnen, IaaS-Cloud-Angebote auszulagern. Diese IaaS-Aufgaben übernimmt nun das von IBM im Juni 2013 gekaufte Unternehmen SoftLayer. Somit erweitert IBM sein SmartCloud-Portfolio um mehrere Rechenzentren weltweit und ist in der Lage, skalierbare und dedizierte Rechenressourcen für Big Data in der Cloud bereitzustellen.

Sowohl IBM als auch Microsoft decken einen Großteil der von Anwendern genannten Anforderungen an Big Data-Anwendungen ab. Beide können mittels Hadoop- und MapReduce-Verfahren riesige Mengen an Daten in kurzer Zeit und kostengünstig verarbeiten. Kleinere Unterschiede gibt es zum Beispiel in der Verarbeitung von Streaming-Daten. Hier kann IBM mit dem Produkt InfoSphere Streams eine besser ausgebaute und auf Unternehmen ausgerichtete Lösung anbieten. Diese lässt sich zum Beispiel mit historischen Analysen kombinieren und erleichtert somit die Durchführung notwendiger Maßnahmen in Echtzeit. Microsoft vertraut bei Big Data-Analysen auf die Integration der eigenen Business Intelligence Werkzeuge des SQL Server und der Erweiterungen von Excel. Dies sorgt für eine geringere Einstieghürde bei Anwendern, da sie sich in einer vertrauten Umgebung wiederfinden. 

Bei IBM ist BigSheets ein wichtiger Bestandteil von InfoSphere BigInsights. Hiermit sollen große Mengen an Daten intuitiv über eine Weboberfläche analysiert und Zusammenhänge aufgedeckt werden. Der parallele Zugriff auf Daten durch eine Vielzahl von Anwendern wird bei beiden Anbietern mit entsprechenden Zugriffskonzepten gewährleistet. 

Größere Unterschiede zwischen den untersuchten Lösungen gibt es in Bezug auf die Bezugsmodelle und die Integration von Cloud Computing. Während Microsoft mit Windows Azure HDInsight die Big Data-Funktionen mit denen einer Cloud-Plattform (PaaS) optimal kombiniert, setzt IBM eher auf einen IaaS-Ansatz. Bis Mitte des Jahres 2013 gab es die Möglichkeit, IBMs Big Data-Produkte wie zum Beispiel InfoSphere BigInsights innerhalb der eigenen SmartCloud-Services zu betreiben. Dabei wurden sogar vorgefertigte Images für virtuelle Maschinen angeboten. Durch die Umstellung ihres SmartCloud-Portfolios sind potenzielle Kunden nun gezwungen, auf die IaaS-Dienstleistungen des Tochterunternehmens SoftLayer auszuweichen. Microsofts Ansatz macht hingegen einen geschlossenen und besser integrierten Eindruck. Außerdem werden hier flexiblere Skalierungs- und Vertragsoptionen in Form ressourcenabhängiger Abrechnungen angeboten. Zwar erhält der Kunde bei SoftLayer eine große Auswahl an Hard- und Software, ein sehr gut ausgebautes Netzwerk und einen etablierten IaaS-Dienstleister, allerdings wird dadurch die Konfigurations- und Einrichtungsphase der Big Data-Lösung komplexer und zeitaufwendiger. 

Gemeinsam sind beiden Anbietern die recht ähnlichen SLA-Vereinbarungen für Kunden. Bei beiden Anbietern gibt es die Möglichkeit, einen erweiterten, hierarchisch in Stufen aufgeteilten Support zu erwerben.

Interessenten legen auch Wert auf die Lage der Rechenzentren des Dienstleisters und seiner Datenschutzmaßnahmen. Hier gibt es grundlegende Unterschiede zwischen den Anbietern. Microsoft punktet in diesem Bereich mit dem Vorteil einer höheren globalen Verfügbarkeit, speziell in Europa, und der Zertifizierung nach ISO/IEC 27001:2005. Bei SoftLayer hingegen gibt es keine Gewährleistung dafür, dass die Daten allein im ausgewählten Data Center verbleiben. Als US-Unternehmen können sowohl Microsoft als auch SoftLayer mittels Patriot Act dazu verpflichtet werden, Daten ihrer Kunden an die US-Regierung auszuhändigen – selbst wenn diese nicht in den USA lagern.

 

Für Unternehmen gilt es, die unterschiedlichen Cloud-Konzepte zu bewerten

Es lässt sich festhalten, dass Microsoft und IBM ausgereifte Cloud-basierte Big Data-Anwendungen anbieten und damit viele der Anforderungen von Anwendern erfüllen, die sich aus der Literatur und durch Umfragen ableiten lassen. Bei der genaueren Untersuchung der Angebote von Microsoft und IBM fällt auch auf, dass es keine allgemeingültige Lösung für alle Herausforderungen im Zusammenhang mit Big Data geben kann. Aus den Dimensionen Volume, Variety und Velocity lassen sich zu viele unterschiedliche Anforderungen ableiten. Potenzielle Kunden fordern eine Vielzahl verschiedener Leistungen. In einigen Fällen müssen sehr große Datenmengen in Form eines Stroms in Echtzeit auswertbar sein, in anderen besteht der Bedarf, historische Daten jederzeit ad hoc analysieren zu können. Dementsprechend versuchen die Big Data-Anbieter, den individuellen Wünschen der Kunden nachzukommen und möglichst viele Anforderungen durch das Angebot verschiedener und spezialisierter Lösungen abzudecken.

Apache Hadoop stellt in keinem Fall eine Gesamtlösung dar, sondern bietet vielmehr eine Basis zur Behandlung bestimmter Big Data-Anforderungen, wie zum Beispiel der kostengünstigen Verarbeitung großer Datenmengen in Batch-Vorgängen. Die führenden Anbieter in diesem Bereich pflegen im Wesentlichen die gleichen Vorstellungen bezüglich Big Data wie ihre Kunden. IBM und Microsoft versuchen, die Einstiegshürde mittels angepassten, auf ihre Kunden zugeschnittenen und übergreifenden Unternehmenslösungen zu verringern. 

Die Verknüpfung von Cloud Computing und Big Data wird unterschiedlich umgesetzt. Microsofts PaaS-Ansatz scheint auf den ersten Blick die bessere Variante zu sein. Aber, wie IBM zeigt, bietet auch eine Big Data-Lösung in Kombination mit einem IaaS-Dienstleister Vorteile 

Unternehmen und Organisationen erkennen den Wert ihrer wachsenden Datenmengen immer besser und betrachten sie nicht länger nur als „lästigen Aufwand“. Sie suchen nach Möglichkeiten, diese Datenmengen sinnvoll und kosteneffektiv auszuwerten. Es liegt nun bei den Unternehmen, die individuellen Vor- und Nachteile des Einsatzes einer Cloud-basierten Big Data-Anwendung zu bewerten.

 


 Apache Hadoop als Basis für Big-Data-Anwendungen

Die Grundlage vieler Big Data-Lösungen bilden die Entwicklungen rund um Apache Hadoop. Zwar stellen sie nicht die Lösung für alle Big Data-Anforderungen dar, aber viele Unternehmen und Entwickler erkennen das Potenzial und investieren in dieses Thema. Laut dem BARC Big Data Survey Europe haben bereits 14 Prozent der Befragten Hadoop in Betrieb. Weitere 30 Prozent planen eine Integration. 

Bei Apache Hadoop handelt es sich um ein von Googles MapReduce-Ansatz inspiriertes Framework für verteilte und skalierbare Software. Dieses Open Source-Framework wurde entwickelt, um riesige Datenmengen kosteneffizient und schnell abzuspeichern und ebenso kosteneffizient und schnell zu laden bzw. zu verarbeiten. Daher ist es prädestiniert für den Einsatz in Big Data-Anwendungen. Allgemein sind die Hadoop-Technologien darauf ausgelegt, große Mengen an unstrukturierten oder semistrukturierten Daten zu verwalten. Wichtig ist, dass diese Daten, nachdem sie einmal abgespeichert wurden, selten oder gar nicht mehr geändert werden müssen. Hadoop Distributed File System (kurz: HDFS) entspricht dabei dem verteilten Dateisystem und MapReduce der Verarbeitungslösung. Zusammen stellen sie die Kernbestandteile von Apache Hadoop dar. Es gibt allerdings zahlreiche weitere Applikationen und Ergänzungen, die für den Betrieb von Apache Hadoop wichtig sind.


Dr. Norman Bernhardt

Head of Software Products & Strategy

pmOne AG

Norman Bernhardt berät als Director Mobility & Travel Industry am Berliner Standort der pmOne AG Kunden der unterschiedlichsten Branchen zum Themengebiet Cloud, Data Warehouse / Business Intelligence. Darüber hinaus beschäftigt er sich intensiv mit der Erforschung der Potentiale des Cloud Computing für das Anwendungsfeld Business Intelligence. Im Rahmen seiner Promotion an der Steinbeis Hochschule Berlin erarbeitet Norman Bernhardt ein Entscheidungsmodell für den Einsatz von Business-Intelligence-Lösungen auf der Basis von Cloud-Computing-Technologien.

https://www.pmone.com •  Blog-Beiträge von diesem Autor