Hadoop Framework für große Datenmengen

Top-Level-Projekt: Hadoop Framework der Apache Software Foundation

Die großen Suchmaschinen-Anbieter Google und Yahoo haben Anfang des Jahrtausends neue Algorithmen entwickelt, um die anfallenden großen Datenmengen zu bearbeiten. Am bekanntesten ist der Hadoop Framework - MapReduce-Algorithmus, den Google Ende 2004 in seinen wesentlichen Teilen veröffentlichte.

 

Daten werden beim MapReduce-Algorithmus in den drei Phasen Map, Shuffle und Reduce verarbeitet. Bei sehr großen Datenmengen ist die parallele Ausführung auf mehreren Rechnern erforderlich, um die benötigte Leistung zu erbringen. Grundidee von MapReduce ist, umfangreiche Rechenaufgaben auf eine Vielzahl von Rechnern zu verteilen (Map), dort extrem parallelisiert abzuarbeiten, die Reorganisation der Daten im Shuffle-Schritt zu optimieren und die Ergebnisse wieder zusammenzuführen (Reduce). Nur in den Phasen Map und Reduce kann der Anwender durch Spezifikationen eingreifen.

 

Hadoop Framework ist eng mit dem erfahrenen Entwickler Doug Cutting verbunden, der nach Veröffentlichung des MapReduce-Algorithmus unter anderem bei Apple, Xerox Parc und Yahoo das Projekt Hadoop startete. Fun Fact: Hadoop war der Name des Spielzeugelefanten von Cuttings Sohn. Das ist auch der Ursprung für den gelben Elefanten als Logo von Hadoop.

Hadoop ist ein Framework

Im Kern ist Hadoop ein Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten können. Dieses Framework ist in Java programmiert und ein Top-Level-Projekt der Apache Software Foundation, wird also mit einer so genannten Open-Source-Lizenz vertrieben.

 

Mit dieser Lizenz dürfen Anwender die Software frei verwenden, modifizieren und verteilen. Zudem ist erlaubt, unter der Apache-Lizenz verfügbare Software in eigenen Softwareprodukten zu verwenden. Diese eigenen Produkte müssen nicht unter einer Apache-Lizenz verfügbar sein. Das führt dazu, dass es eine Reihe von Anbietern gibt, die „Hadoop-Lösungen“ vertreiben, darunter Cloudera, Datameer, Hortonworks, IBM oder Microsoft mit HDInsight.

 

Mit Hadoop erstellte Applikationen können komplexe Berechnungen auf tausende von Rechnerknoten verteilen und Petabyte an Daten verarbeiten. Mit jeder Suchanfrage, die Anwender im Internet stellen, wird der Beweis für die Leistungsfähigkeit von Hadoop erbracht.

Map Reduce Algorithmus im Hadoop Framework
Der Map Reduce Algorithmus ist eine Kernkompenente im Hadoop Framework.

Hadoop Framework

Hadoop Framework enthält außer einer Komponente für MapReduce noch eine Komponente für das Hadoop Distributed File System (HDFS) und Hadoop Common. HDFS sorgt für die hochverfügbare und leistungsfähige Speicherung von Daten und kann dabei auch mehrere hundert Millionen Dateien verwalten. Hadoop Common enthält unter anderem Funktionen zum Start von Hadoop, für den Zugriff auf HDFS und die Kommunikation innerhalb der Datencluster. 

 

Aus der Komponente MapReduce ist nach einer Überarbeitung in der Apache Software Foundation das Projekt YARN geworden. Außerdem gibt es eine Reihe von Erweiterungen für Hadoop, darunter mit Hive und Spark die wahrscheinlich wichtigsten. Hive erweitert Hadoop Framework um Data-Warehouse-Funktionen und Spark dient dem Aufbau von Machine-Learning-Anwendungen.

 

Für Anwender-Unternehmen ist Hadoop deswegen interessant, weil es (durch den Einsatz von Standard-Rechnern) kostengünstig möglich ist, unvorstellbar große Datenmengen in sehr kurzer Zeit zu analysieren. Sinnvoll ist es, die Hadoop-Lösung eines etablierten Anbieters einzusetzen. Die Experten von pmOne empfehlen je nach Einsatzzweck die Lösungen von Microsoft oder Datameer.

Gernot Molin
Geschäftsführer
pmOne Analytics GmbH
Technologiepark 21
33100 Paderborn
+49 89 4161761-0
Gernot Molin
Timo Klerx
Senior Data Scientist
pmOne Analytics GmbH
Technologiepark 21
33100 Paderborn
+49 89 4161761-0
Dr. Timo Klerx