Predictive Analytics ist kein monolithischer Baustein in Form einer einfach zu aktivierenden Funktion, sondern selbst ein Prozess. Der Standard CRISP-DM (Cross Industry Standard Process for Data Mining) skizziert ein mögliches Vorgehensmodell.[1] Beim CRISP-DM handelt es sich um einen Ansatz, Predictive Analytics in klar abgegrenzte Prozessschritte zu strukturieren.[2] Es zeigt auf, wie die Entwicklungsschritte eines Predictive-Analytics-Modells zyklisch gestaltet werden sollten (s. Abb. 2). Jede Phase des Prozesses benötigt eine spezifische Unterstützung. So werden in der Datenverständnis- und in der Vorbereitungsphase Data Engineers benötigt, während bei Modelling und Evaluation Data Scientists ihre ML-Expertise einbringen.

Abb. 2: CRISP-DM-Zyklus

  • Der zentrale Einstiegspunkt ist das Geschäftsverständnis ("Business Understanding"). Ohne dieses lassen sich gefundene Beziehungen kaum als Kausalitäten interpretieren. Produktionsplanung, Kostenrechnung usw. bilden hier die Grundlage, um vorab Hypothesen bilden zu können.
  • Im zweiten Schritt müssen notwendige Daten identifiziert und deren Bedeutung verstanden werden ("Data Understanding"). Bei zahlreichen, zum Teil sehr heterogenen Quellen für Verbräuche, Preise und Einflussfaktoren ist das Verständnis der Daten essenziell.
  • Im dritten Schritt erfolgt die in der Regel aufwendige Aufbereitung und Zusammenführung der Daten ("Data Preparation"). Es wird eine einzige Eingabetabelle für die Ausführung der ML-Modelle benötigt. Mögliche Einflussgrößen für Kosten werden aus verschiedenen Quellen gesammelt. Einige Vorhypothesen über mögliche erwartete Zusammenhänge können hilfreich sein, um die Anzahl der Variablen zu reduzieren.

    Der Aufwand für die Datenaufbereitung sollte nicht unterschätzt werden. Selbst Daten aus der Kostenrechnung weisen Probleme bei der Abrechnung auf. Es können Zuordnungsprobleme auftreten, z. B. die Zuordnung zum falschen Projekt. Möglicherweise werden zudem nicht alle Kosten periodengenau zugeordnet, was für eine akkurate Ableitung notwendig ist. Dies trifft z. B. gelegentlich für Mieten oder Versicherungsbeträge zu. Auch fehlende Daten können problematisch sein. Unter Umständen kann ML dazu beitragen, fehlende Datensatzbestandteile zu ersetzen.

  • Das Herzstück ist die Modellierung des Algorithmus ("Modelling"). In der Regel werden mehrere Methoden hinsichtlich ihrer Eignung ausprobiert. Die Algorithmen werden anschließend mit einem Teil der Daten trainiert, der andere Teil wird zur Validierung genutzt.

    Es reicht zudem nicht aus, einfach nur potenzielle Einflussgrößen zu sammeln. Auch zwischen diesen Einflussgrößen gibt es häufig Abhängigkeiten (sog. Multikollinearitäten). So könnte bspw. die Anzahl der Produktvarianten mit der Anzahl der Materialnummern korrelieren. Beide Größen wirken auf die Beschaffungskosten. Es sollte versucht werden, möglichst unabhängige Variablen zu verwenden (vgl. auch Ausführungen in Abschnitt 4).

    Weiterhin sind zeitliche Abhängigkeiten zu beachten. Die Komplexität in der Konstruktion wird sich bspw. verzögernd auf die Produktion auswirken. Die Kosten selbst können Kostentreiber anderer Kostenarten sein. So sind z. B. die Nebenkosten normalerweise ein fester Prozentsatz des Grundgehalts, können aber weitere Einflüsse haben, wie die Anzahl der Mitarbeiter, die über der Beitragsbemessungsgrenze liegen.

  • Die Evaluierung überprüft die Eignung des Modells ("Evaluation"). Damit wird der experimentelle Anstrich von Predictive Analytics unterstrichen. In der Evaluierungsphase werden Testdaten als Teil des Dateninputs verwendet, um die Qualität des Modells überprüfen zu können.

    In der Aufbereitung ist anzustreben, dass nur Faktoren mit einem starken Einfluss einbezogen werden. Schließlich geht es nicht nur um die Kostenprognose, sondern darum, auch Treiber zu identifizieren. Dies erleichtert die Planung und Simulation, da man sich auf wenige Variablen konzentrieren kann. Allerdings muss ein Indikator für die Einflussstärke gefunden werden. Eine Möglichkeit besteht darin, die Veränderung der Prognosegenauigkeit unter Vernachlässigung der jeweiligen Variablen zu messen. Eine Vereinfachung kann darin bestehen, eine Randomisierung der Eingabevariablen zu erstellen. Dann muss das Modell nicht mehr trainiert werden.

  • Unter dem "Deployment" ist die Produktivsetzung zu verstehen. Die Ergebnisse werden in einen Entscheidungsprozess eingebunden. Idealerweise kann eine Kostenschätzung direkt aus den Planungsmasken angestoßen werden. Die Gültigkeit der Modelle ist von Zeit zu Zeit zu überprüfen, da sich Rahmenbedingungen, wie bspw. Kundenpräferenzen, ändern können.
[1] Vgl. IBM, 2010.
[2] Zum Entstehungszeitpunkt des Modells sprach man von Data Mining.

Dieser Inhalt ist unter anderem im Haufe Finance Office Premium enthalten. Sie wollen mehr?