Dr. Angelica M. Schwarz, Dr. Manuel Koch
1.2.1 Definition von Daten
Eine allgemeine Datendefinition gibt es nicht – vielmehr kommt es auf den jeweiligen Anwendungsbereich an. Nach der Definition der im Bereich der Informationstechnik standardgebenden Internationalen Standardisierungs-Organisation (ISO) sowie der Internationalen Elektrotechnischen Kommission (IECD) z.B. sind Daten definiert als "eine Darstellung von Informationen, die in einer formalisierten Art zur Kommunikation, Interpretation oder Verarbeitung durch Mensch oder Maschine geeignet sind". Im Kontext der Informationsverarbeitung ist eine Information wiederum definiert, als Kenntnis über Objekte wie Fakten, Ereignisse, Dinge, Prozesse oder Ideen, einschließlich Konzepte, die in einem bestimmten Kontext eine bestimmte Bedeutung haben. In eine ähnliche Richtung geht die Informationstheorie, nach welcher eine Information als das Wissen definiert wird, das in Bezug auf ein bestimmtes Ereignis und unter Berücksichtigung von verschiedenen Wahrscheinlichkeiten eingesetzt wird, um Unsicherheiten zu reduzieren oder zu beseitigen.
Gestützt auf die obigen Ausführungen ergibt sich folgende Kaskadenordnung:
Daten = Informationen = Wissen
Es stellt sich die Frage, ob diese Kaskadenordnung im Bereich von Big Data gleichermaßen Anwendung finden kann. Ausgangslage vieler Big Data Strategien sind oftmals Rohdaten. Eine Analyse dieser Rohdaten kann in der Regel erst dann erfolgen, wenn diese verarbeitet und "auf einen gemeinsamen Nenner" gebracht werden. Für die Zwecke der nachfolgenden Ausführungen ist deshalb an obige Definition anzulehnen, allerdings mit folgender Spezifizierung:
Verarbeitete Daten = Informationen = Wissen = Erkenntnisse
Erst der Verarbeitungsprozess lässt Daten zu Informationen entstehen und generiert Wissen, aus welchem sich Erkenntnisse ableiten lassen. Dieses Verständnis ist Ausgangslage der nachfolgenden Ausführungen, wobei von einer weiten Datensemantik auszugehen ist (erfasst werden namentlich sowohl Personen- als auch Sachdaten).
1.2.2 Datengenerierung
Die Generierung von Daten steigt mit hoher Geschwindigkeit. Die Gesamtmenge der weltweit generierten, kopierten und eingesetzten Daten wird den Prognosen zufolge bis 2025 auf mehr als 180 Zettabyte ansteigen. Zu diesem enormen Wachstum tragen nicht nur die Daten der Nutzer von Smartphones, Social Media Plattformen und Suchmaschinen bei, sondern auch der exponentiell zunehmende Einsatz vernetzter Sensoren in Fahrzeugen, Flugzeugen, Gebäuden, Infrastruktureinrichtungen aller Art sowie Logistik- und Herstellungsprozessen bei. Eben diese Vernetzung von Prozessen, Sachen und Menschen über das Internet wird gemeinhin als Internet of Things (IoT) bezeichnet. Die Zunahme der Datengenerierung führt dazu, dass nicht alle generierten Daten gespeichert werden können. Dies bedeutet jedoch im Umkehrschluss nicht, dass historische Daten keinen Wert im Rahmen einer Datenanalyse besitzen können; die Nutzbarkeit und damit der Wert von Daten als Erkenntnisquelle hängt vielmehr vom Kontext der Datenanalyse, vom Geschäftsmodell des Unternehmens und den Fähigkeiten (Know-how) bei der Datenanalyse ab.
1.2.3 Begriff Big Data
Für den Begriff Big Data existiert in der Literatur keine einheitliche Definition. Im Kern besteht ein wesentlicher Unterschied von Big Data zu der bisher üblichen Art der Datennutzung darin, dass nicht nur erheblich größere Datenmengen analysiert werden, sondern diese regelmäßig aus unterschiedlichen Quellen stammen, unterschiedliche Qualität aufweisen und ggf. auch abweichend strukturiert sind. Diese Eigenarten machen eine Analyse der Daten mittels herkömmlicher Datenbanktechnologie unmöglich. Die Merkmale von Big Data werden in der englischsprachigen Literatur in Form der 4, bzw. 5 "Vs" prägnant illustriert:
- Datenmenge (volume): bezieht sich auf die extrem großen Volumina an Daten, die permanent generiert und für Big Data Analytics kommerziell verwertet werden. Das Volumen bewegt sich nicht im Bereich von Gigabytes, sondern regelmäßig mindestens in millionenfach größerer Dimension, d.h. Petabytes bis hin zu Zettabytes.
- Geschwindigkeit (velocity): Die Daten werden mit hoher Geschwindigkeit generiert, z.B. über Sensoren, die permanent Messdaten liefern, und in zunehmendem Umfang auch zeitnah oder sogar in Echtzeit ausgewertet. Die unmittelbare Auswertung stellt einen Paradigmenwechsel von der traditionellen Vorgehensweise, wonach Daten zunächst gespeichert und zu einem wesentlich sp...