Dr. Angelica M. Schwarz, Dr. Manuel Koch
Die Erhebung, Kombination und Analyse großer Datenmengen im Sinne der in Kapitel 1 dieser Beitragsreihe enthaltenen Big Data-Definition (s. Abschnitt 1.2.3) kann als Big Data Life Cycle vereinfacht wie folgt dargestellt werden:
Abb. 1: Big Data Life Cycle
Erheben und Erfassen
Im ersten Schritt erfolgt die Rohdatengewinnung, z.B. über online-Plattformen, Sensoren, Datenkataloge etc. Die Datenerstellung und -speicherung kann hierbei in unterschiedlichen Jurisdiktionen erfolgen und somit bereits einen grenzüberschreitenden Datenfluss in dieser Phase des Datenzyklus auslösen. Die in diesem Schritt erfassten Daten sind in der Regel Rohdaten und können in diesem Zustand nicht zur Informationsgewinnung verwendet werden.
Reinigen
Im Rahmen dieses Schrittes werden Datenfehler beseitigt und die Daten in ein einheitliches Format überführt. Für eine zielführende Datenbereinigung ist es wichtig, die grundlegenden Ziele der Datenanalyse zu definieren, d.h. bereits bei der Aufbereitung und Reinigung der Daten muss die verfolgte Datenstrategie einfließen. Dies auch vor dem Hintergrund, dass der notwendige Grad der Korrektheit der Daten von der Art der zu gewinnenden Informationen und Erkenntnisse abhängt. So kann zum Beispiel bei Flugzeugwartungsdaten eine absolute Korrektheit erforderlich sein, wohingegen bei Daten für die Analyse von Konsumentenverhalten geringere Anforderungen an die Korrektheit der Daten für statistische Auswertungen gestellt werden.
Kombinieren
Der Schritt umfasst die Aggregierung der Datenpunkte aus verschiedenen Quellen und die in aller Regel erforderliche Umwandlung in ein gemeinsames Datenformat. Dies bedeutet nichts anderes als dass Daten aus verschiedensten Quellen zusammengeführt werden. Idealerweise können Datensätze mehrerer Dimensionen bzw. Perspektiven kombiniert werden, z.B. Buchungsdaten, Wetterdaten, Sensorendaten, Zahlungsdaten, Konsumentendaten, Infrastrukturdaten, GPS-Daten etc.
Kuratieren
Datenkuration ist der Prozess der Umwandlung verschiedener Datenquellen in einheitliche Datensätze für weitere Analysen. Der Hauptzweck der Datenkuratierung besteht darin, die Daten vielseitiger zu machen und gleichzeitig ein hohes Maß an Qualität zu erhalten. Obwohl ein Großteil der Bereinigung in der Reinigungsphase durchgeführt wird, hilft die Datenkuratierung ordnungsgemäß gekennzeichnete und organisierte Daten zu erhalten, die sich besser für Analysen nutzen lassen. Sobald ein Universum von Datenpunkten erstellt ist, muss entschieden werden, ob das gesamte Universum verarbeitet werden soll oder die Analyse auf eine Stichprobe begrenzt werden kann, die für die gesamte Grundgesamtheit repräsentativ ist.
Analysieren
Bei der Analyse der Daten findet die Hauptwertschöpfung im Datenlebenszyklus statt, da in diesem Schritt aus Daten Informationen und damit Erkenntnisse generiert werden, die qualitativ bessere und schnellere Managemententscheidungen ermöglichen. Durch die gezielte Untersuchung der Datensätze können Trends und Muster identifiziert werden, die als Grundlage für datenunterstützte operative und strategische Managemententscheidungen dienen können. Die Analyse erfolgt mit Hilfe von Algorithmen (Data Mining und ML). Hierbei ist jedoch zu beachten, dass bei der Datenanalyse, auch soweit KI und ML eingesetzt werden, immer noch menschliches Eingreifen erforderlich ist.
Entscheiden
Die aus der Verwendung fortschrittlicher Analysetechniken umfangreicher, komplexer und dynamischer Datenquellen gewonnenen Erkenntnisse ermöglichen es, den unternehmensinternen Adressaten besser informierte und schnellere Entscheidungen treffen zu lassen. Wie sich etwa aus dem oben in Abschnitt 2.1.3. dargestellten Use Case von Skywise ergibt, kann die Airline eine Optimierung des operativen Betriebs der Flotte realisieren und hieraus wettbewerbsrelevante Kostensenkungen im hoch kompetitiven Luftfahrtgeschäft generieren. Airbus als OEM kann aus den extensiven Nutzungsdaten extrem wertvolle Erkenntnisse aus unterschiedlichen Nutzungsszenarien seiner Produkte gewinnen, die in die Weiterentwicklung und Optimierung der Produkte einfließen und hieraus Wettbewerbsvorteile generieren.