Wie viele Daten sind „Big Data“?

Sie haben wahrscheinlich eine grobe Vorstellung davon oder selber schon erlebt, was „viele Daten“ (Big Data) sind. Aber haben Sie auch eine echte Vorstellung von den Größenverhältnissen? Google-Daten in Reiskörner „umgerechnet“ würden alle zwei Tage die komplette Erdoberfläche bedecken. Und in 2011 wurden wohl 1,8 Zettabyte Daten produziert.

Bei meinem allerersten PC konnte ich die Daten auf einer Floppy-Disk mit einem Durchmesser von 5,25 Zoll und einer maximalen Kapazität von 120 Kilobyte speichern. Die zum Ende meines Studiums aufkommenden 3,5-Zoll-Disketten ermöglichten es, bis zu 3,4 Megabyte zu speichern. Das neue Speichermedium hatte also mehr als 28mal mehr Platz für meine Daten. Heute hat mein PC mehr als doppelt so viel Platz allein im Arbeitsspeicher.

Bei diesen Erfahrungen traue ich mich nicht, das Wachstum des Datenvolumens zu prognostizieren. Aber die Analysten von IDC machen solche Vorhersagen – auch weil sie vom Anbieter für Speichermedien, EMC, dafür bezahlt werden. IDC glaubt, dass sich das Datenvolumen weltweit alle zwei Jahre verdoppelt und in 2011 rund 1,8 Zettabyte an Daten erzeugt oder kopiert wurden.

Dieses Wachstum wird insbesondere durch die zunehmende maschinelle Erzeugung von Daten hervorgerufen, beispielsweise über Protokolle von Telekommunikationsverbindungen und Web-Zugriffe (Weblogs), die automatische Erfassung von RFID-Lesern, Kameras, Mikrofonen und sonstige Sensoren. Weitere Beispiele für große Datenmengen gibt es in der Finanzindustrie (Finanztransaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenvolumina an, zum Beispiel in der Geologie, Genetik, Klimaforschung und Kernphysik.

Sie haben wahrscheinlich eine grobe Vorstellung davon oder selber schon erlebt, was „viele Daten“ sind. Aber haben Sie auch eine echte Vorstellung von den Größenverhältnissen? Wir hören immer Begriffe wie Megabyte, Gigabyte, Terabyte oder Petabyte. Die Tabelle listet neben den Begriffen Kilobyte bis Yottabyte auch die dazu gehörenden Zahlen und Begriffe auf. Haben Sie es bereits einmal mit einer Quadrillion Daten zu tun gehabt? Auf keinen Fall auf Ihrem Bankkonto, aber Unternehmen wie Google beschäftigen sich durchaus mit diesen Werten.

Das ist für den normalen Menschen noch immer nicht greifbar. Eine kleine Anekdote versucht, den Begriff Trillion zu verdeutlichen. Eine Trillionen Byte sind ein Exabyte, also immer noch ein Tausendstel dessen, was weltweit jährlich an Daten produziert wird.

Vor langer Zeit, so geht die Legende, hat ein kluger Mann für einen Herrscher im Orient das Schachspiel entwickelt. Dieser war von diesem königlichen Spiel so angetan, dass er dem Erfinder des Spiels einen freien Wunsch erfüllen wollte. Der kluge Mann dachte ein wenig nach und wünschte sich dann, dass das Schachbrett mit Reiskörnern gefüllt werden sollte. Und zwar wie folgt: Ein Korn solle auf das erste Feld, zwei auf das zweite, vier auf das dritte, usw. gelegt werden – also auf einem Feld immer doppelt so viele Reiskörner wie auf dem Vorangehenden. Der Fürst, der sich über diesen vermeintlich bescheidenen Wunsch wunderte, versprach, der Bitte nachzukommen.

Hätte er über ausreichende mathematische Kenntnisse verfügt, so hätte er diese Dummheit sicher nicht begangen, denn folgt man dieser Anordnung der Körner, so liegen allein auf dem 64. Feld mehr als neun Trillionen Reiskörner. Bei Aufsummierung sämtlicher Körner auf dem Schachbrett, so ergibt sich die unglaubliche Zahl von fast 18,5 Trillionen Reiskörnern. Das sind so viele, dass man damit die gesamte Erdoberfläche bedecken könnte.

 

 

Mit welchen Datenmengen gehen wir heute um?

Der allen bekannte Google-Konzern verarbeitet täglich 24 Petabyte an Daten. Auf das Jahr gesehen sind das immerhin 8.760 Petabyte, also = 8,7 Exabyte also 8,7 Trillionen Byte. Umgerechnet in Reiskörner könnte damit nahezu die Hälfte der Erde bedeckt werden.

Der amerikanische Telekommunikationskonzern AT&T transportiert täglich 30 Petabyte an Daten durch seine Leitungsnetze. Auf das Jahr gesehen also 10.950 Petabyte, also = 10,95 Exabyte, also 10,95 Trillionen Byte, also noch ein paar Säcke Reis mehr.

Alleine die Experimente rund um das so genannte Higgs-Boson im Teilchenbeschleuniger des Kernforschungszentrums CERN bei Genf produzierten aus den 800 Trillionen Teilchenkollisionen 200 Petabyte an Daten. Das Partikel gilt als Beweis für die Existenz des Higgs-Feldes, das aller Materie seine Masse verleiht. Die Zahl der Teilchenkollisionen geht also nahe an die Trilliarde. Spätestens hier lässt sich in Analogie zum Ausdruck „Big Money“ von „Big Data“ sprechen.