Lorenz Rossmann, Dr. Jan Christoph Munck
3.1 Daten sichten
Ist der Projektplan ausgearbeitet und die Ziele definiert, beginnt die Arbeit mit den Daten. Dabei werden die Datenquellen herangezogen und systematisch für die Verwendung des im vorherigen Schritt ausgemachten Tools vorbereitet. Bisherige Prozesse und die darin verwendeten Dokumente sind der Ausgangspunkt dafür.
Werden die Daten wie in dem Projekt zum Liquiditätsforecasting bspw. tabellarisch erfasst und zentral abgelegt, können sie systematisch abgefragt und aufbereitet werden. Dabei ist das Ziel, so viele Forecasts und Ist-Werte für zurückliegende Monate abzugreifen, wie zur Verfügung stehen. Denn je mehr Datenpunkte pro vorherzusagendem Wert zur Verfügung stehen, desto besser die Prognosequalität vieler Forecasting-Methoden. Da die Datenpunkte neben Attribut und Wert einen monatlichen Zeitstempel haben, anhand dessen sie chronologisch sortiert werden können, spricht man auch von Zeitreihen. Zeitreihen sind Datenpunkte, die zusammen mit der Zeit ihrer Aufnahme gespeichert werden.
Dabei gibt es neben den Daten, die im zu automatisierenden Prozess generiert werden, häufig weitere, die in engem Zusammenhang mit den analysierten Prozessen stehen. Im Liquiditätsforecasting sind das z. B. die Umsätze und Kosten der vergangenen Monate sowie eine Umsatz- oder Absatzplanung. Einige Unternehmen verwenden weitere Marktdaten und makroökonomische Indikatoren in ihrem händischen Liquiditätsforecasting-Prozess. Diese Daten sollten für die monatlichen Forecasts genauso strukturiert in Zeitreihen erfasst und abgelegt werden, damit sie ebenfalls bei der Automatisierung des Forecasts verwendet werden können.
3.2 Daten beschreiben
Stehen die Daten strukturiert zur Verfügung, werden sie dokumentiert und beschrieben, um ein gemeinsames Verständnis der Prozesse und Begrifflichkeiten zu etablieren. Neben der Darstellung des Dateiformats und der ursprünglichen Quellen enthält diese Beschreibung eine Auflistung von Fehldaten, die Aggregationsebenen der Daten sowie die Zusammenhänge zwischen diversen Datensätzen. Ein Beispiel dafür ist der Einfluss der Absatzplanung für ein Produkt auf den Liquiditätsforecast auf der Planungsposition für dieses Produkt.
3.3 Daten explorieren
Stehen die Daten in Zeitreihen strukturiert zur Verfügung und sind beschrieben, beginnt die Exploration. Dieser Schritt, in dem die Daten statistisch und grafisch dargestellt werden, hilft in vielen Fällen, Fehler und Strukturänderungen in den Datensätzen aufzuzeigen und gemeinsam mit der Fachabteilung zu bereinigen. Wird z. B. der Cash Pool eines Konzerns umstrukturiert oder eine Planungsposition in mehrere aufgeteilt, wirkt sich dies auf die Nutzbarkeit der bis dahin verfügbaren Daten im Liquiditätsforecasting aus. Dabei werden die Daten korrigiert und bereinigt. Die Bereinigung und Korrektur wird typischerweise ebenfalls mit mathematischen Verfahren durchgeführt.
Um zusätzlich saisonale Schwankungen und Trends grafisch nachzuvollziehen eignet sich die Zeitreihenzerlegung der wichtigsten Zeitreihen. Bei der Zeitreihenzerlegung wird eine Zeitreihe in eine saisonale Komponente, einen Trend und in eine Komponente, die den Rest beschreibt, zerlegt (s. Abb. 2). Die hier dargestellte Zeitreihenzerlegung basiert auf dem Konzept des gleitenden Durchschnitts und eignet sich hauptsächlich für die grafische Darstellung. Für das Forecasting können Trend und Saisonalität mit anderen Methoden genauer berechnet werden.
Abb. 2: Zeitreihenzerlegung: Eurostat – Umsatz in der deutschen Industrie (Index 2015 = 100 %)
Sind die Schritte zur Dokumentation und Exploration durchgeführt, wird die Datenqualität beurteilt, fehlende sowie fehlerhafte Werte dokumentiert und gemeinsam im Team potenzielle Lösungsansätze diskutiert. Am Ende der zweiten Phase
- liegen die Daten strukturiert vor,
- sind dokumentiert,
- zusätzliche für den Prozess zu verwendende Daten stehen zur Verfügung,
- die Zusammenhänge zwischen diversen Datensätzen sind dokumentiert und
- ein gemeinsames Verständnis der Datenqualität wurde erarbeitet.
Ein Vorteil der genauen Analyse vorliegender Daten und Prozesse ist, dass nebenbei Optimierungspotenziale aufgezeigt werden. Im Beispielprojekt konnten Data Scientist und Controller durch das strukturierte Nachvollziehen des händischen Forecasting-Prozesses gemeinsam Schwachstellen und Fehlerquellen identifizieren. Dies gelingt allerdings nur durch die vertrauensvolle und konstruktive Zusammenarbeit von Data Scientist und Controller. Sollten zu Beginn Ressentiments und Misstrauen das Arbeitsklima prägen, wurden gute Erfahrungen damit gemacht, Arbeitsmeetings zu Beginn unter Einbezug weiterer Eskalationsstufen abzuhalten.