Dr. Mario Stephan, Benjamin Grether
Das Advanced-Analytics-Universum umfasst 4 Bereiche, die eindeutig voneinander abzugrenzen sind. Die Bereiche sind: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics und Prescriptive Analytics. Diese lassen sich anhand der Achsen Komplexität und Nutzen ("Business Value") anordnen (vgl. Abb. 3).
Abb. 3: Die 4 Bereiche des Advanced Analytics
- Descriptive Analytics beantwortet die Frage, "was" in der Vergangenheit passiert ist. Hier ist klassischerweise der Bereich Business Intelligence (BI) verortet. Dabei werden Daten von Analysten für den Erkenntnisgewinn visualisiert und interpretiert. Dies geschieht z. B., wenn ein Diagramm, das die monatlichen Umsatzzahlen eines Supermarktes aggregiert über die Zeit darstellt und den Vertriebsleitern als Diskussionsgrundlage dient.
- Der Bereich Diagnostic Analytics beschäftigt sich mit der Frage, "warum" etwas passiert ist. Hierbei werden die Daten auf Korrelationen und Hypothesen untersucht, um anschließend mit der Business-Logik auf Kausalitäten rückschließen zu können. Dies würde im Supermarktbeispiel bedeuten, dass die Verkaufszahlen externen Faktoren gegenübergestellt werden, um diejenigen Faktoren zu identifizieren, die Einfluss auf einzelne Produkte haben (wie z. B. die Außentemperatur auf die Verkaufszahlen von Eiscreme).
- Predictive Analytics geht noch einen Schritt weiter und versucht, Vorhersagen für die Zukunft zu treffen bzw. unvollständige Information zu modellieren. Es wird angenommen, dass die Struktur, die in den Daten vorhanden ist, in der Zukunft gleichbleibend ist oder sich zumindest nur geringfügig verändern wird. Auf dieser Grundlage kann extrapoliert und in die Zukunft fortgeschrieben werden. Im Zusammenspiel zwischen Trend und Saisonalität wird so bspw. ein Forecast für die Verkaufszahlen des Supermarktes modelliert. Mit diesen Forecasts kann das Management Entscheidungen treffen, um die zukünftige Entwicklung zu beeinflussen, bspw. durch die Erhöhung des Marketingbudgets bei einer schlechten Aussicht.
- Der Bereich Prescriptive Analytics zielt auf die Empfehlung einer konkreten Handlung, um das gewünschte Ergebnis herbeizuführen bzw. zu optimieren. Der Algorithmus schlägt bspw. vor, wann welche Marketingmaßnahme für den Supermarkt umgesetzt werden sollte, um die Profitabilität zu maximieren.
Im Bereich Predictive Analytics lassen sich die verwendeten mathematischen und statistischen Methoden in 2 Hauptströmungen aufteilen: Supervised Learning und Unsupervised Learning.
Supervised Learning beschreibt den Teil des maschinellen Lernens, eine Funktion zu erlernen, die einen Input (erklärende Variablen) auf einen Output (Zielvariable) abbildet und auf exemplarischen Input-Output-Paaren basiert (historischen Daten). Dies können entweder Regressionen oder Klassifikationen sein. Von einer Klassifikation spricht man, wenn die zu beschreibende Variable kategorial ist, also bspw. die Zuordnung einer E-Mail als "Spam" oder "nicht Spam" oder die Prognose einer fristgerechten Lieferung in "pünktlich" und "verspätet". Eine Regression sagt demgegenüber die Werte einer kontinuierlichen Variablen vorher, wie z. B. die Höhe des Rheinpegelstandes oder die Verspätung einer Lieferung in Tagen oder Wochen. Auf algorithmischer Ebene finden sich im Supervised Learning Methoden wie lineare Regression, XgBoost, Random Forest, neuronale Netze sowie Zeitreihenmodelle wie ARIMA oder Exponential Smoothing.
Unsupervised Learning ist eine Art selbstorganisiertes Lernen, bei dem der Algorithmus versucht, ohne zuvor definierte Kategorien (in der Fachsprache "Labels") bisher unbekannte Muster im Datensatz zu finden. Hier wird die Frage beantwortet, welche Kategorien in den Daten vorhanden sind und welcher Datenpunkt zu welcher Kategorie gehört. Beispielhaft ist hier eine Kundensegmentierung, deren Ergebnis Kundengruppen sind, die anhand von Ähnlichkeitsmustern in den Daten erstellt wurden. Die Hauptmethoden, die in diesem Zusammenhang verwendet werden, sind Clustering-Methoden (bspw. mit dem k-means-Algorithmus) und Principal-Component-Analysen (eine Analyse der Hauptkomponenten, die die Datenpunkte beschreiben). Ziel ist es, eine fixe Anzahl repräsentativer Datenpunkte zu finden, die als Clusterzentren dienen und mithilfe derer über ein Abstandsmaß eine Klassifizierung von Beobachtungen (neuen Datenpunkten) durchgeführt werden kann.
Die Sammlung dieser Methoden umfasst (und begrenzt) den Spielraum, in dem sich Predictive Analytics bewegt. Jede Predictive-Analytics-Fragestellung lässt sich in diesen Raum einordnen und mit den zugeordneten Methoden modellieren.