Dr. Mario Stephan, Benjamin Grether
1.1 Definition
Unter Predictive Analytics (PA) versteht man Prozesse, Konzepte und Methoden, mit denen auf Basis von strukturierten (Vergangenheits-)Daten und mithilfe von klassischer Statistik und/oder maschinellem Lernen (Machine Learning), Vorhersagen von Ereignissen gemacht werden können. Vereinfacht geht es darum eine Vorhersage zu machen, welche Entwicklung sich auf Basis einer vorliegenden (limitierten) Datenlage absehen lässt; im zweiten Schritt geht es konsequenterweise darum abzuleiten, was getan werden kann, um die prognostizierten Entwicklungsverläufe zu beeinflussen. Vergangenheitsdaten stellen die Basis und den Ausgangspunkt von PA dar. Algorithmen bewerkstelligen die rechentechnische Verarbeitung dieser Daten i. S. v. prozessierbaren Mustern und Trends, aus denen sich die Prognose errechnet.
Aus wissenschaftlicher Sicht sind die (mathematischen) Grundlagen für die Modellierung von Predictive-Analytics-Problemstellungen bereits seit langem bekannt. Arbeiten zur Regressionsanalyse gehen bis in 19. Jahrhundert zurück. Pioniere des maschinellen Lernens wie Frank Rosenblatt und Marvin Minsky arbeiteten schon in den 1950er Jahren an Künstlichen Neuronalen Netzen (KNN). Seitdem wurden die Methoden kontinuierlich weiterentwickelt. In den 2000er Jahren führte dies zu publikumswirksamen Durchbrüchen in Bereichen wie der Bild- und Spracherkennung (Computer Vision und Natural Language Processing).
Wirklich neu und damit auch einer der Gründe für den aktuellen "Hype" in der (Beratungs-)Praxis ist die Kombination aus einer hohen Verfügbarkeit von großen Datenmengen (Big Data) und die gleichzeitige Fähigkeit moderner Prozessoren, diese Datenmengen effizient zu verarbeiten. Verstärkt wurde diese Entwicklung zusätzlich durch Open-Source-Programmiersprachen wie bspw. R oder Python, die über umfangreiche, frei verfügbare Modellierungsbibliotheken verfügen, die ständig erweitert und verbessert werden.
Durch die (freie) Verfügbarkeit großer Datenmengen, die (kosten-)effiziente Verarbeitung dieser Datenmengen und den freien Zugang zu den Modellbibliotheken kann heute eine breite Masse von Anwendern Predictive-Analytics-Methoden nutzen und weiterentwickeln.
1.2 Einsatzbereiche
Ein wesentliches Einsatzgebiet von Predictive Analytics ist das im Zentrum dieses Beitrags stehende Management Reporting bzw. die Unterstützung der Unternehmenssteuerung in Planung, Budgetierung und Forecasting. Innerhalb des Forecasting bieten sich insb. Prognosen von Absätzen/Umsätzen ("Sales Forecast"), Kosten (z. B. Materialeinkauf, Lagerhaltung) und Geldbewegungen (z. B. Liquiditätsplanungen, Forderungsmanagement) an. Weitere Anwendungsbeispiele sind
- Fraud Detection (z. B. alle Arten von finanzieller Veruntreuung, Kreditbetrug etc.),
- Risikoschätzungen (z. B. für die Bestimmung der Kreditausfallwahrscheinlichkeit oder zur Verwendung im risikobasierten Pricing),
- Predictive Maintenance (z. B. vorausschauende Wartungsintervalle) und
- Image Recognition (z. B. automatisierte Erkennung von Hagelschäden auf Bildern von Karosserien).
Abb. 1: Vorteile von Predictive Analytics im Forecasting
1.3 Vorteile und Einschränkungen
Ein digitaler bzw. algorithmenbasierter Forecast (FC) weist zahlreiche Vorteile gegenüber klassischen Forecasts auf, was auch die weite Verbreitung in der Praxis erklärt. Klassische FC-Prozesse leiden bspw. oft unter einem zu hohen manuellen Aufwand und der damit einhergehenden Fehleranfälligkeit oder den unvermeidbaren und von Individualinteressen geprägten politischen Einfärbungen einzelner Stakeholder. Digitale Forecasts sind durch ihre datenbasierte Natur grundsätzlich höher automatisiert und objektiviert.
Die Objektivität der Algorithmen hängt immer von der Auswahl der Datengrundlage ab. Ein in der Presse vielzitiertes Beispiel für einen "nicht objektiven" Algorithmus bezieht sich auf die Bewerberauswahl bei Amazon aus dem Jahre 2018. Hier wurde ein Algorithmus darauf trainiert, Onlinebewerbungen automatisch vorzusortieren und nach geeigneten oder ungeeigneten Kandidatinnen und Kandidaten zu unterscheiden. Die Daten, auf denen der Algorithmus trainiert wurde, basierten zwangsläufig auf Anstellungen vergangener Jahre. In diesen Jahren waren jedoch männliche Bewerber sowohl bei den Kandidaten als auch später bei den tatsächlichen Anstellungen überrepräsentiert. Daraus folgte eine ungewollte, systematische Diskriminierung von Frauen in der Bewerbungsauswahl des Algorithmus, die aus einer historisch gewachsenen und in den Daten repräsentierten Ungleichheit stammte. Derartige systematische Verzerrungen oder neudeutsch "Biases" müssen im Prozess der Datenauswahl immer beachtet werden.
Die Effektivität von algorithmenbasierten Forecasts ist zudem dadurch eingeschränkt, dass singuläre, disruptive Ereignisse nicht antizipiert werden können. Die Stärke der Algorithmen liegt im Erlernen sich wiederholender Muster und nicht im Modellieren einmaliger Anomalien. Ein digitaler Forecast kann einen wirtschaftlichen Einbruch wie nach 9/11 nicht vorhersehen, wenn der Auslöser in der historischen Datengrundlage nie od...