Top-Level-Projekt der Apache Software Foundation: Hadoop als Framework für große Datenmengen

Die großen Suchmaschinen-Anbieter Google und Yahoo haben Anfang des Jahrtausends neue Algorithmen entwickelt, um die anfallenden großen Datenmengen zu bearbeiten. Am bekanntesten ist der MapReduce-Algorithmus, den Google Ende 2004 in seinen wesentlichen Teilen veröffentlichte.

Daten werden beim MapReduce-Algorithmus in den drei Phasen Map, Shuffle und Reduce verarbeitet. Bei sehr großen Datenmengen ist die parallele Ausführung auf mehreren Rechnern erforderlich, um die benötigte Leistung zu erbringen. Grundidee von MapReduce ist, umfangreiche Rechenaufgaben auf eine Vielzahl von Rechnern zu verteilen (Map), dort extrem parallelisiert abzuarbeiten, die Reorganisation der Daten im Shuffle-Schritt zu optimieren und die Ergebnisse wieder zusammenzuführen (Reduce). Nur in den Phasen Map und Reduce kann der Anwender durch Spezifikationen eingreifen.

Hadoop ist eng mit dem erfahrenen Entwickler Doug Cutting verbunden, der nach Veröffentlichung des MapReduce-Algorithmus unter anderem bei Apple, Xerox Parc und Yahoo das Projekt Hadoop startete. Fun Fact: Hadoop war der Name des Spielzeugelefanten von Cuttings Sohn. Das ist auch der Ursprung für den gelben Elefanten als Logo von Hadoop.


Hadoop ist ein Framework

Im Kern ist Hadoop ein Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten können. Dieses Framework ist in Java programmiert und ein Top-Level-Projekt der Apache Software Foundation, wird also mit einer so genannten Open-Source-Lizenz vertrieben.

Mit dieser Lizenz dürfen Anwender die Software frei verwenden, modifizieren und verteilen. Zudem ist erlaubt, unter der Apache-Lizenz verfügbare Software in eigenen Softwareprodukten zu verwenden. Diese eigenen Produkte müssen nicht unter einer Apache-Lizenz verfügbar sein. Das führt dazu, dass es eine Reihe von Anbietern gibt, die „Hadoop-Lösungen“ vertreiben, darunter Cloudera, Datameer, Hortonworks, IBM oder Microsoft mit HDInsight.

Mit Hadoop erstellte Applikationen können komplexe Berechnungen auf tausende von Rechnerknoten verteilen und Petabyte an Daten verarbeiten. Mit jeder Suchanfrage, die Anwender im Internet stellen, wird der Beweis für die Leistungsfähigkeit von Hadoop erbracht.

Map Reduce Algorithmus in Hadoop
Der Map Reduce Algorithmus ist eine Kernkompenente in Hadoop.

Hadoop enthält außer einer Komponente für MapReduce noch eine Komponente für das Hadoop Distributed File System (HDFS) und Hadoop Common. HDFS sorgt für die hochverfügbare und leistungsfähige Speicherung von Daten und kann dabei auch mehrere hundert Millionen Dateien verwalten. Hadoop Common enthält unter anderem Funktionen zum Start von Hadoop, für den Zugriff auf HDFS und die Kommunikation innerhalb der Datencluster. 

Aus der Komponente MapReduce ist nach einer Überarbeitung in der Apache Software Foundation das Projekt YARN geworden. Außerdem gibt es eine Reihe von Erweiterungen für Hadoop, darunter mit Hive und Spark die wahrscheinlich wichtigsten. Hive erweitert Hadoop um Data-Warehouse-Funktionen und Spark dient dem Aufbau von Machine-Learning-Anwendungen.

Für Anwender-Unternehmen ist Hadoop deswegen interessant, weil es (durch den Einsatz von Standard-Rechnern) kostengünstig möglich ist, unvorstellbar große Datenmengen in sehr kurzer Zeit zu analysieren. Sinnvoll ist es, die Hadoop-Lösung eines etablierten Anbieters einzusetzen. Die Experten von pmOne empfehlen je nach Einsatzzweck die Lösungen von Microsoft oder Datameer.


Sie wollen auch unstrukturierte und Streaming-Daten zu Analysen heranziehen? Kein Problem – die webbasierte End-to-End-Lösung von Datameer vereint die Vorteile von Hadoop und ermöglicht Ihnen den Einstieg in die Big Data Analytics-Welt

Mehr erfahren über Datameer

Marcel Franke
VP Technology & Growth

Technologiepark 21
33100 Paderborn

T: +49 89 4161761-0
F: +49 89 642499-29
marcel.franke@pmone.com

Webinare Lösungen Kontakt