Prof. Dr. Ulrike Baumöl, Dipl.-Kfm. Philipp-Dennis Berlitz
Moore's Law
Die Frage, warum heutzutage derart viele und heterogene Daten zur Verfügung stehen, kann mit der rasanten Entwicklung von elektronischen Produkten beantwortet werden. Die Erkenntnis, dass sich die Anzahl der Transistoren auf einem Mikrochip etwa alle 2 Jahre verdoppeln, wird dem Ingenieur und Mitbegründer des Halbleiterherstellers Intel, Gordon Moore, zugeschrieben. Diese Feststellung beschreibt ein exponentielles Wachstum und ist unter dem Begriff "Moore's Law" bekannt. Das "Gesetz" wirkt sich auch auf den Preis von Mikrochips aus, was auf die Fotolithografie, das Produktionsverfahren von Halbleitern, zurückzuführen ist. Es besitzt die Eigenschaft, dass die Produktionskosten eines Mikrochips nicht von der Anzahl der Transistoren abhängen. In Verbindung mit Moore's Law bedeutet dies, dass sich die Kosten pro Transistor umgekehrt proportional zur Anzahl der Transistoren pro Mikrochip verhalten. Dies führt dazu, dass Halbleiter mit zunehmender Rechenleistung erschwinglicher werden und elektronische Produkte von gleicher Rechenleistung immer günstiger vertrieben werden können. Dieser Umstand erlaubt letztlich die große Verbreitung solcher Produkte.
Sehr schnell
Eine direkte Folge von zunehmender Rechenleistung und hoher Verbreitung sind technische Artefakte wie Web 2.0 Anwendungen, Smartphones und Mikrosensoren. All diese Produkte besitzen die Gemeinsamkeit, dass sie Daten in schneller Folge produzieren. Auf Grundlage dessen sollte die Beobachtung, dass die Menge und Vielfalt an produzierten Daten ein sehr ähnliches Wachstumsverhalten aufweisen wie die Rechenleistung von Mikrochips, nicht überraschend sein.
Weltweites Datenvolumen wächst
Eine Untersuchung des Markforschungs- und Beratungsunternehmens International Data Company (IDC) veranschaulicht dies anhand von konkreten Zahlen. Sie kommt zu dem Ergebnis, dass im Jahr 2011 weltweit Daten mit einem Volumen von ca. 1,8 Zettabyte (1,8 · 1021 Byte) produziert wurden, und ermittelt eine jährliche Wachstumsrate von ca. 60 %. Mithilfe einer Studie von Lyman und Varian kann man einen direkten Vergleich zum Jahr 1999 herstellen. Diese Studie kommt zu dem Ergebnis, dass die jährliche Datenproduktion damals bei ca. 1,5 Exabyte (1,5 · 1018 Byte) lag. Die Resultate beider Studien lassen zwischen 1999 und 2011 auf eine jährliche Wachstumsrate von ca. 80 % schließen. Dieses rasante Wachstum bedeutet für Unternehmen, dass das Thema Big Data nicht verschwinden wird, sondern auch in Zukunft eine wichtige Rolle spielen wird. Der Begriff Big Data beschreibt aber nicht nur große Datenmengen, er geht deutlich darüber hinaus. Im Folgenden sollen, anhand von mehreren Definitionen, die unterschiedlichen Aspekte des Begriffs Big Data betrachtet werden.
2.1 Big Data – Was sich hinter dem Begriff verbirgt
Big Data als Entscheidungsunterstützung
Für Unternehmen bedeutet Big Data vor allem eine neue Art der Entscheidungsunterstützung. Neu deswegen, weil bisher ungenutzte Datenquellen sowie eine bisher nicht dagewesene Größenordnung und Vielfalt an Daten, herangezogen werden können. Dies kann zu neuen Erkenntnissen über Kunden, Märkte und sogar das eigene Unternehmen führen.
Aus anwendungsorientierter Sicht beschreibt Big Data den Gebrauch von kosteneffizienter innovativer Technik, die dazu dient, betriebswirtschaftliche Problemstellungen zu lösen. Die behandelten Problemstellungen sind dadurch gekennzeichnet, dass sie mithilfe von konventionellen Datenverarbeitungssystemen nicht gelöst werden können, da sie zu hohe Anforderungen an Ressourcen, wie z. B. die Verarbeitungsgeschwindigkeit, stellen.
Statistische Bedeutung
Diese "Negativdefinition" wird laut Markl oft von Dienstleistungsanbietern sowie Soft- und Hardwareherstellern verwendet. Er schlägt vor, Big Data von einem anderen Blickwinkel zu betrachten. Seiner Ansicht nach ist ein Hauptmerkmal von Big Data, das Vorhandensein von Datenmengen, mit einer derartigen Größe, dass auf ihrer Basis statistisch signifikante Aussagen getroffen werden können. Auf Grundlage dieser Aussagen können dann wiederum fundierte Entscheidungen getroffen werden.
Volume, Velocity und Variety
Ebenso wie bei der konventionellen Datenanalyse steckt auch hinter dem Konzept Big Data die Absicht, Informationen aus Daten zu extrahieren, um daraus neues Wissen zu generieren. Ein weiterer Ansatz den Begriff Big Data zu beschreiben, verwendet folgende 3 Datenmerkmale, um eine Abgrenzung zu herkömmlichen Daten und deren Analyse herzustellen:
- ein großes Datenvolumen (Volume),
- eine hohe Entstehungsgeschwindigkeit der Daten (Velocity) und
- eine große Vielfalt in der Datenbeschaffenheit (Variety) (vgl. Abb. 2).
Diese 3 Eigenschaften finden sich in zahlreichen Beschreibungen von Big Data wieder. Ein näherer Blick auf diese sollte zum besseren Verständnis des Begriffs beitragen: