Carsten Bork, Khalid Sabeeh
Die Architektur der Datenbasis schafft den Rahmen für die Datenauswertung und ermöglicht es, fachliche Optimierungsmaßnahmen abzuleiten. Um aus den verarbeiteten Daten inhaltliche Erkenntnisse und Schlüsse ziehen zu können, wird eine spezifische Auswertungskompetenz und ein enger Austausch mit dem Data Scientist erforderlich. Das Verständnis für das konstruierte Datenmodell und die Datenstruktur auf Seiten des Fachbereichs ist ein entscheidender Erfolgsfaktor bei der Datenanalyse.
Fachliche Analyse ist eine gemeinsame Disziplin
Die gezielte und analysespezifische Auswertung anhand zu definierender Filter und Dimensionen macht die Identifikation von Mustern, Häufigkeiten und weiteren Auffälligkeiten in den Daten möglich. Neue Anforderungen an die Eigenschaften der Daten werden kontinuierlich im Rahmen der Datenanalyse vom Fachbereich definiert und müssen "agil "mit dem Data Scientist abgesprochen und umgesetzt werden. Es kommt zu einer prozessualen Verschmelzung zwischen Data Engineering und fachlicher Analyse. Diese dynamische und iterative Arbeitsweise erlaubt es immer tiefer in die Datenstruktur einzutauchen und mit einer hohen Frequenz neue Informationen und Erkenntnisse zu generieren. Dabei können in einem Advanced-Analytics-Projekt bis zu 40 % neue Daten und Informationen erarbeitet und generiert werden.
Geeignetes Tool ist entscheidend
Neben der Auswertungskompetenz und der intensiven Kollaboration zwischen Fachbereich und Data Scientist, ist die Toolunterstützung bei der fachlichen Analyse entscheidend. Klassische Datenanalyse-Tools wie bspw. MS Excel stößt bei Zieltabellen mit mehreren Millionen Datenreihen bereits früh an seine Grenzen. Die Fähigkeiten große Datenmengen zu verarbeiten sowie dynamisch den Datensatz auswerten und visualisieren zu können, stellen bei der Toolauswahl die zentralen Anforderungen dar.
Abb. 6: Prozessuale Verschmelzung von Data Engineering und fachlicher Analyse
Auf Basis erster Auswertungen mittels der toolbasierten Datenvisualisierung erfolgt die Ergebnisvalidierung und -analyse gemeinsam mit den Fachexperten. Hierbei gilt es zwei Zielsetzungen zu erfüllen:
- Zum einen müssen die Erkenntnisse aus der Big-Data-Betrachtung durch die Auswertung von Stichproben validiert werden und unklare Konstellationen in den Daten geklärt werden.
- Zum anderen gilt es die Beobachtungen in den Daten zu deuten und erklärbar zu machen. Hieraus können sich zusätzliche Daten- und Analyseanforderungen ergeben, welche durch den Data Scientist in einer neuen Iteration der Datenmodellierung entsprechend implementiert werden müssen.