Max Heinzler, Edgar Kreuz
3.1 Anforderungen an die Erhebung
Die Erhebung relevanter Daten mit präziser Zielsetzung ist ein grundlegender Schritt, bei dem zunächst der Informationsbedarf und die Methoden der Informationsgewinnung definiert werden. Dies umfasst die Ermittlung von Ziel- und Einflussgrößen sowie die Festlegung der für die Weiterverarbeitung entscheidenden Merkmalsausprägungen. Sowohl interne Datenquellen wie beispielsweise Absatzmengen und Liefertage, als auch externe Datenquellen, darunter Angebotsdaten und Wetterinformationen, müssen identifiziert und geprüft werden. Dabei ist es wichtig, die Datenmengen und ihre Verfügbarkeit zu bewerten sowie die Datenqualität auf Ausreißer, fehlende Werte und Korrelationen hin zu überprüfen.
Die Auswahl sinnvoller Daten und die Vermeidung von Verzerrungen (Bias) infolge der Datenerhebung sind weitere kritische Aspekte, die in den Prozess der Datenerhebung und -analyse einfließen müssen, um zuverlässige und objektive Ergebnisse zu gewährleisten. Diese Aufgaben erfordern ein hohes Maß an Sorgfalt, Fachwissen und Ressourcen. Strategien zur Vermeidung von Bias umfassen die Verwendung von Diversifizierungsstrategien bei der Datenauswahl, die Anwendung von Techniken zur Neutralisierung von Verzerrungen und die Berücksichtigung verschiedener Perspektiven und Erfahrungen bei der Dateninterpretation. Controller bewerten die Kosten-Nutzen-Relation von Datenerhebungsprojekten und sorgen dafür, dass die Datenbeschaffung im Einklang mit den finanziellen Zielen und Ressourcen des Unternehmens steht.
Data Scientists spielen eine zentrale Rolle bei der Auswahl und Analyse von Daten. Sie identifizieren sinnvolle Datensätze, minimieren Bias und gewinnen aussagekräftige Einblicke. Die Auswahl sinnvoller Daten und die Vermeidung von Bias erfordern oft die Zusammenarbeit zwischen Controllern und Data Scientists, welche unterschiedliche Perspektiven und Fachkenntnisse einbeziehen, um so unternehmensrelevante Daten zu erhalten, die eine sinnvolle Unternehmenssteuerung gewährleisten.
3.2 Anforderungen an die Aufbereitung
Anschließend erfolgten die Visualisierung und Vorverarbeitung der Daten, um sie für den nächsten Schritt vorzubereiten. Dieser nächste Schritt im normalen Ablauf eines KI-Projekts umfasst die Auswahl relevanter Merkmale (Feature Selection), die Transformation und die Reduktion der Datendimensionen, um schließlich zu präzisen Prognosen (Forecast) zu gelangen. Diese methodischen Schritte sind essenziell, um aus großen und komplexen Datensätzen aussagekräftige Informationen zu extrahieren, die für fundierte Entscheidungen und Vorhersagen im Rahmen von KI-Projekten genutzt werden können.
Wie in allen anderen Bereichen gilt auch bei dem KI-Modell, das schlechte Daten zu schlechten Prognosen und Analyseergebnissen führen. Für eine erfolgreiche Prognose müssen die Daten einige Eigenschaften erfüllen. Die gesammelten Daten müssen in einer entsprechenden Qualität, also frei von Inkonsistenz, Duplikaten und Fehlern, vorliegen. Die Daten müssen Informationen enthalten, die für die Vorhersage relevant und dabei möglichst vielfältig sind. Die Daten sollten auch in einer maschinenlesbaren Form vorliegen, um sie in das Modell einzuspeisen. Ein häufiges Problem ist, das Daten für diesen speziellen Anwendungsfall nicht erhoben oder verwertbar vorliegen.
Drei wesentliche Einschränkungen für die datenbezogene KI sind somit:
- der Aufwand für die Datenerhebung,
- die Datenqualität und
- die Datenverfügbarkeit.
3.3 Identifikation der wichtigsten Absatztreiber aus einer Vielzahl interner und externer Faktoren
Um die Algorithmen fehlertolerant zu implementieren, werden immense Datenmengen der für die Algorithmen notwendigen Einfluss- und Prognosegrößen benötigt, in der Datenwissenschaft auch "Data Lake" genannt. Dieser Data Lake wurde so konzipiert, dass er kontinuierlich aus einer Vielzahl von Datenquellen gespeist werden kann. Die Grundlage des Data Lake bildeten die bestehenden Controllingdaten der Badischen Staatsbrauerei Rothaus in der macs-Software, die reale Stammdaten und Werteflüsse des Unternehmens abbildeten.
Die Rothaus-internen Daten wurden um externe Daten verschiedener kundenspezifischer Quellen ergänzt. Je nach Umfeld des Unternehmens gehen dadurch die unterschiedlichsten Einflussgrößen in die Absatzplanung ein. Welcher Branche das jeweilige Unternehmen angehört, spielt dabei grundsätzlich keine Rolle. Dank der Algorithmen und der KI-Unterstützung entsteht ein selbstlernendes System, das Abweichungen frühzeitig erkennt und es dem Unternehmen dadurch ermöglicht, seine Bestände und die Produktion bedarfsgerecht zu optimieren. Besondere Herausforderung ist es, die Datenarchitektur so zu optimieren, dass ein selbstlernendes System entstehen kann. Die Ergebnisdaten wurden so aufbereitet und abrufbar gemacht, dass sie reibungslos in die Absatzplanung und das Forecasting von Rothaus eingehen können. Das ermöglicht Absatz-Vorhersagen auf einem Niveau, das bisher nicht erreichbar war.
3.4 Die Datenanalyse bei Rothaus im Detail
Grundlage des Data Lake für das KI-Modell bei Rothaus bilden auf der einen Seite interne Daten wie Stammdaten, Absatzmengen, Absatzzeit- punkte oder Preise (UVP). Kundenspezifisch wurden sie um externe Da...