Lorenz Rossmann, Dr. Jan Christoph Munck
Die Anwendung und Evaluierung diverser Methoden soll aufzeigen, welche Methode(n) zur Automatisierung anhand der vorhandenen historischen Daten die besten Prognosen erzielen. Diese Projektphase ist geprägt von einem iterativen Vorgehen. Nachdem der Data Scientist die Test-Prozedur aufgebaut hat, werden iterativ Methoden ausgewählt, angewendet und in gemeinsamen Workshops evaluiert und diskutiert. Dabei werden weitere Anpassungen der Methoden oder neue Methoden diskutiert, die potenziell zu einem besseren Ergebnis führen. Diese Anpassungen und neuen Methoden werden dann wiederum angewendet – eine neue Iteration beginnt. Im Folgenden werden kurz die wichtigsten Begriffe für den weiteren Verlauf des Beitrags erläutert und anschließend die 4 genannten Schritte vorgestellt.
4.1 Begriffe
Prognosemethoden bestehen meist aus 2 Algorithmen. Ein Algorithmus trainiert ein Prognosemodell mit verfügbaren Daten. Der andere Algorithmus, der Interferenzalgorithmus, wendet das Prognosemodell an und liefert eine Vorhersage. Ein Parameter ist ein Wert, der beim Training des Prognosemodells trainiert – oder gelernt – wird. Dabei dient der Trainingsalgorithmus der Optimierung der Parameter. Der Interferenzalgorithmus berechnet die Prognose dann anhand der Parameter. Ein Prognosemodell ist das Ergebnis des Trainings mit einer Methode anhand von Daten und enthält neben den Parametern auch die Information, wie diese in der Vorhersage verwendet werden. Interferenz ist die Ausführung des Prognosemodells und damit die Generierung des Ergebnisses.
4.2 Test-Prozedur erstellen
Vor der Anwendung von Prognosemethoden wird eine Prozedur im Analysewerkzeug der Wahl aufgebaut, mit der die Ergebnisse teil-automatisiert erzeugt und ausgewertet werden. Diese Prozedur strukturiert die Daten für die Anwendung der Methoden vor, wendet die Methode an, erfasst Vorhersagewerte und Prognoseparameter und wertet die Vorhersagewerte aus.
Ein Prognosemodell wird vom Trainingsalgorithmus anhand von Trainingsdaten trainiert und dann vom Interferenzalgorithmus anhand von Testdaten getestet. Mit Prognosemodellen und Testdaten wurde im Beispielprojekt jede Position des Liquiditätsforecasts für die zu betrachtenden Monate vorhergesagt. Die vorhergesagten Werte wurden pro Planungsposition mit den eingetretenen Ist-Werten verglichen und schließlich aggregiert. Daraus wurde dann der Kern-KPI, die Prognosegüte, für alle Monate berechnet.
4.3 Methoden auswählen, anwenden und evaluieren
In einem Small-Data-Projekt ist die Auswahl geeigneter Methoden eine wiederkehrende Aufgabe. Dabei wird zuerst meist auf einfache Verfahren zurückgegriffen und erst später werden fortgeschrittenere Methoden oder Kombinationen von Methoden verwendet, da diese Methoden typischerweise viele Parameter enthalten, deren Optimierung sehr aufwendig sein kann. Die Auswahl basiert daher oftmals auf den Erfahrungen des Data Scientists, wird aber gemeinsam mit Experten und Management diskutiert.
Die algorithmenbasierten Methoden zum Forecasting lassen sich in Zeitreihenmethoden und kausale Methoden aufteilen. Zeitreihenmethoden gewichten die Vergangenheitswerte einer Zeitreihe für die Prognose. Beispiele dafür sind der gleitende Durchschnitt, die exponentielle Glättung und die Extrapolation. Kausale Methoden leiten Abhängigkeiten zwischen dem vorherzusagenden und weiteren Werten ab und nutzen diese zur Prognose. Beispiele dafür sind die Regression, führende Indikatoren und ökonometrische Modelle. Kausale Methoden und Zeitreihenmethoden lassen sich kombinieren, um sowohl die Zeitreihe selbst als auch weitere Daten im Forecasting zu verwenden. Moderne auf Machine Learning basierende Verfahren und künstliche neuronale Netze gibt es für beide Kategorien. Die ausgewählten Methoden werden nun als Teil der vorher aufgebauten Prozedur angewendet, ausgewertet und deren Parameter pro vorherzusagenden Planungsposition optimiert.
4.4 Prognosegüte berechnen
Wurden die Forecasting-Ergebnisse erzeugt, wird per Prozedur die Prognosegüte berechnet. Diese Ergebnisse werden in Form von Tabellen und Graphen allen Stakeholdern regelmäßig vorgestellt. Dabei wird diskutiert, welche weiteren Maßnahmen, wie die Hinzunahme von Daten und Methoden, ergriffen werden können, um die Ergebnisse zu verbessern. Sind keine weiteren Verbesserungen möglich oder ist die Projektphase vorbei, wird die Erfolgsdefinition aus der ersten Projektphase herangezogen, um über das weitere Vorgehen zu entscheiden.
In unserem Beispielprojekt konnte nur für eine der ausgewählten Gesellschaften die Prognosegüte mit einer einzelnen Methode verbessert werden. Allerdings zeigte sich bei der Analyse der Ergebnisse auch, dass einzelne Planungspositionen wie die Personalkosten konstant blieben oder gut anhand weniger vergangener Monate prognostiziert werden konnten. Die Automatisierung dieser Planungspositionen mit einfacher exponentieller Glättung, die aktuellere Vergangenheitswerte stärker gewichtet als weniger aktuelle, lieferte sehr gute Ergebnisse für alle Gesellschaften. Andere...