Dr. Angelica M. Schwarz, Dr. Manuel Koch
Vor dem Beginn eines Big Data Projekts ist dessen Zielsetzung zu definieren; hierbei leiten sich die Handlungsoptionen aus dem bestehenden Geschäftsmodell ab, d.h. soll das bestehende Geschäftsmodell optimiert oder neue synergistische unabhängige Geschäftsfelder erschlossen werden?
Nachfolgend wird typisierend und im Sinne einer groben Übersicht der Ablauf von Datenanalyseprojekten dargestellt, um eine Grundlage für das Verständnis datenbasierter Wertschöpfung zu schaffen, d.h. der Prozess von Daten als Rohstoff bis zur Gewinnung von Informationen und Erkenntnisse, die zu besseren Unternehmensentscheidungen führen. Eine Detail-Analyse erfolgt im Modul 2.
Grafisch lässt sich der typische Prozess (vereinfachend) wie folgt darstellen:
Abb. 1: Ablauf Datenanalyseprojekt
1.2.5.1 Analyse der Datengrundlage
Der Erfolg eines Big Data Projekts hängt primär von der Datengrundlage ab. Bevor die Datenarchitektur erstellt werden kann, bedarf es zunächst somit einer Analyse, welche Daten dem Unternehmen zur Verfügung stehen und/oder wie die fehlenden Daten beschafft werden können.
1.2.5.2 Analyse der (steuer-)rechtlichen Rahmenbedingungen
In der Praxis ist oftmals anzutreffen, dass die rechtlichen Rahmenbedingungen erst analysiert werden, wenn die Big Data Architektur bereits steht. Technisch gesehen mag die Big Data Strategie einwandfrei funktionieren, doch nützt es einem Unternehmen wenig, wenn eine durch Datenverwertung hervorgerufene Effizienzsteigerung an einem anderen Ende wieder verloren geht. Dass die datenschutzrechtlichen Rahmendbedingungen wesentlich sein können, mag für manche Unternehmen vielleicht noch erkennbar sein. Oftmals vergessen gehen indes die steuerrechtlichen Aspekte: Ziel einer Effizienzsteigerung ist oftmals die Kosteneinsparung. Eine Einsparung der Kosten soll wiederum zu einem höheren Gewinn führen. Wie und wo wird dieser Gewinn nun aber besteuert? Wie der Name bereits suggeriert, erfolgt die Steuerplanung idealerweise zu einem Zeitpunkt, wenn die Handlungsschritte noch nicht umgesetzt sind.
1.2.5.3 Datenerschließung und Datenspeicherung
Datenerschließung bedeutet die Erhebung von internen und ggf. auch externen Daten, wobei sowohl strukturierte als auch unstrukturierte Daten in Frage kommen. Idealerweise berücksichtigt die Datenerschließung bereits die rechtlichen Rahmenbedingungen (vgl. oben). Beispiele für Datenquellen sind Verkaufszahlen, Kunden- und Mitarbeiterfeedback, Entwicklungsdaten, Sensordaten von Produktionsabläufen oder von Kunden genutzten Produkten.
Die Speicherung (und Verwaltung) der gesammelten und erhobenen Daten erfolgt regelmäßig mittels eines Data Warehouse oder cloudbasierter Systeme, wobei in der Praxis oft auch eine Kombination beider Möglichkeiten eingesetzt wird. Vereinfachend ausgedrückt handelt es sich beim Data Warehouse um ein System bestehend aus verschiedenen Datenbanken, mit welchem eine große Menge von Daten (in verschiedenen "Datentypen") aufbereitet, transformiert, verwertet und verwaltet werden.
Eine Kernaufgabe ist es in der Praxis regelmäßig, Datensilos hinsichtlich der unternehmensinternen Daten auf technischer Ebene aufzubrechen und eine gesamthafte Betrachtung auf alle intern und extern erhobenen Daten zu ermöglichen. Datensilos kommen oftmals bei (international tätigen) Gruppengesellschaften vor, die zwar miteinander verbunden sind, aber dennoch eigenständige Gesellschaften bilden. Soll eine Big Data Strategie jedoch gesamthaft für einen Konzern definiert werden, gilt es, die verschiedenen Datentypen aus unterschiedlichen Quellen zusammenzuführen, und zwar in einer Art, die eine Datenanalyse erlaubt (vgl. sogleich nachfolgend).
1.2.5.4 Datentransformation und Datenmodellierung
Die Datentransformation stellt einen Schritt der Aufbereitung der Daten für die folgende Datenmodellierung dar. Dies umfasst u.a. die Beseitigung von Datenfehlern und die Überführung in einheitliche Formate, die Filterung hinsichtlich nicht benötigter Daten, die Anonymisierung geschützter Daten, die Verschlüsselung sowie weitere technische Vorbereitungsschritte für die Datenmodellierung. In Abhängigkeit von der eingangs definierten Zielsetzung erfolgt typischerweise die Kombination bzw. Anreicherung der internen Daten mit externen Daten, die von öffentlichen Quellen oder kommerziellen Datenanbietern bezogen werden können. Im Rahmen der Datenmodellierung werden die Daten für die anschließende Analyse und Visualisierung "geordnet", d.h. für die zur Anwendung kommenden Analysetools strukturiert. Dies bedeutet, dass die Modellierung der Daten in Abhängigkeit von der Komplexität der analytischen Zielsetzung erfolgt.
1.2.5.5 Datenanalyse
Die Datenanalyse im engeren Sinne ist ein zentraler Schritt im Datenlebenszyklus. Unter dem Begriff wird eine große Bandbreite von analytischen Modellen verstan...