Dr. Mario Stephan, Benjamin Grether
2.1 Terminologie
Predictive Analytics beschreibt den Schnittpunkt von Statistik und Computer Science, der sich mit der Extraktion von Informationen aus Daten befasst, um diese zur Vorhersage von Trends und Mustern zu verwenden. Dabei kommen auch in Predictive Analytics statistische Methoden zum Einsatz, wie etwa Data Mining, Regressionsmodelle, Entscheidungsbäume, Clusteranalysen, sowie Methoden aus dem Bereich der künstlichen Intelligenz (Machine Learning und Deep-Learning-Algorithmen).
I. d. R. liegt das unbekannte Ereignis in der Zukunft, grundsätzlich kann Predictive Analytics jedoch auf jede Art von unbekanntem Ereignis angewendet werden, sei es in der Vergangenheit, Gegenwart oder Zukunft – z. B. auf die Erkennung von Kreditkartenbetrug in der Vergangenheit, auf die Zuordnung einer E-Mail als Spam in der Gegenwart oder auf die Entwicklung eines Aktienkurses in der Zukunft. Daher ist Predicitve Analytics nicht gleichzusetzen mit dem auf die Zukunft bezogenen Forecasting; Forecasting ist letztlich nur ein (populärer) Teil des Predictive-Analytics-Universums.
Predictive Analytics besteht im Kern darin, Zusammenhänge zwischen erklärenden Variablen und den Ziel-Variablen aus vergangenen Ereignissen zu erfassen und diese zur Vorhersage des unbekannten Ergebnisses zu nutzen. Die Genauigkeit und Verwendbarkeit der Ergebnisse sind dabei stark von der Ebene der Datenanalyse und der Qualität der Annahmen abhängig.
2.2 Einordnung im Advanced-Analytics-Universum
Das Advanced-Analytics-Universum umfasst 4 Bereiche, die eindeutig voneinander abzugrenzen sind. Die Bereiche sind: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics und Prescriptive Analytics. Diese lassen sich anhand der Achsen Komplexität und Nutzen ("Business Value") anordnen (vgl. Abb. 3).
Abb. 3: Die 4 Bereiche des Advanced Analytics
- Descriptive Analytics beantwortet die Frage, "was" in der Vergangenheit passiert ist. Hier ist klassischerweise der Bereich Business Intelligence (BI) verortet. Dabei werden Daten von Analysten für den Erkenntnisgewinn visualisiert und interpretiert. Dies geschieht z. B., wenn ein Diagramm, das die monatlichen Umsatzzahlen eines Supermarktes aggregiert über die Zeit darstellt und den Vertriebsleitern als Diskussionsgrundlage dient.
- Der Bereich Diagnostic Analytics beschäftigt sich mit der Frage, "warum" etwas passiert ist. Hierbei werden die Daten auf Korrelationen und Hypothesen untersucht, um anschließend mit der Business-Logik auf Kausalitäten rückschließen zu können. Dies würde im Supermarktbeispiel bedeuten, dass die Verkaufszahlen externen Faktoren gegenübergestellt werden, um diejenigen Faktoren zu identifizieren, die Einfluss auf einzelne Produkte haben (wie z. B. die Außentemperatur auf die Verkaufszahlen von Eiscreme).
- Predictive Analytics geht noch einen Schritt weiter und versucht, Vorhersagen für die Zukunft zu treffen bzw. unvollständige Information zu modellieren. Es wird angenommen, dass die Struktur, die in den Daten vorhanden ist, in der Zukunft gleichbleibend ist oder sich zumindest nur geringfügig verändern wird. Auf dieser Grundlage kann extrapoliert und in die Zukunft fortgeschrieben werden. Im Zusammenspiel zwischen Trend und Saisonalität wird so bspw. ein Forecast für die Verkaufszahlen des Supermarktes modelliert. Mit diesen Forecasts kann das Management Entscheidungen treffen, um die zukünftige Entwicklung zu beeinflussen, bspw. durch die Erhöhung des Marketingbudgets bei einer schlechten Aussicht.
- Der Bereich Prescriptive Analytics zielt auf die Empfehlung einer konkreten Handlung, um das gewünschte Ergebnis herbeizuführen bzw. zu optimieren. Der Algorithmus schlägt bspw. vor, wann welche Marketingmaßnahme für den Supermarkt umgesetzt werden sollte, um die Profitabilität zu maximieren.
Im Bereich Predictive Analytics lassen sich die verwendeten mathematischen und statistischen Methoden in 2 Hauptströmungen aufteilen: Supervised Learning und Unsupervised Learning.
Supervised Learning beschreibt den Teil des maschinellen Lernens, eine Funktion zu erlernen, die einen Input (erklärende Variablen) auf einen Output (Zielvariable) abbildet und auf exemplarischen Input-Output-Paaren basiert (historischen Daten). Dies können entweder Regressionen oder Klassifikationen sein. Von einer Klassifikation spricht man, wenn die zu beschreibende Variable kategorial ist, also bspw. die Zuordnung einer E-Mail als "Spam" oder "nicht Spam" oder die Prognose einer fristgerechten Lieferung in "pünktlich" und "verspätet". Eine Regression sagt demgegenüber die Werte einer kontinuierlichen Variablen vorher, wie z. B. die Höhe des Rheinpegelstandes oder die Verspätung einer Lieferung in Tagen oder Wochen. Auf algorithmischer Ebene finden sich im Supervised Learning Methoden wie lineare Regression, XgBoost, Random Forest, neuronale Netze sowie Zeitreihenmodelle wie ARIMA oder Exponential Smoothing.
Unsupervised Learning ist eine Art selbstorganisiertes Lernen, bei dem der Algorithmus versucht, ohne zuvor definierte Kategorien (in der Fachsprache "Labels") bisher unbekannte Must...