4.1 Algorithmen müssen zum Problem passen – nicht umgekehrt!
Für Data-Science-Projekte ist die Wahl der richtigen Algorithmen entscheidend, die mit den Fragestellungen und zu analysierenden Daten kompatibel sein müssen: Geht es um Prognosen z. B. der Restlebensdauer einer Baugruppe anhand von Maschinen- und Sensordaten? Soll eine Kategorisierung vorgenommen werden? Oder sollen Abweichungen von "normalen Produktionssituationen" erkannt werden? In Blogs wie "Grundlagen Statistik & Algorithmen", in dem Funktionen von Statistikwerkzeugen erklärt werden, bekommt der Leser Informationen, ob die dort beschriebenen Algorithmen für seine vorliegende Fragestellung infrage kommen könnten. KI-Frameworks bieten Entscheidungsbäume zur Algorithmen-Auswahl wie in Abb. 4.
"Algorithmen-Kochrezepte" und die zahlreichen verfügbaren Frameworks sind hilfreich, sollten aber nicht dazu verführen, Algorithmen anzuwenden, bevor das zu lösende Problem umfassend durchdacht und verstanden wurde. Die Realität hält diverse Fallen bereit, zumindest schon mal die, die von Fachleuten vergessen wurden, an das Projektteam zu kommunizieren. Vor Projekten, die mit automatisierten Entscheidungen direkt in Prozesse eingreifen, ist es unerlässlich, die richtigen Fragen an Fachleute und die Daten zu stellen, um dann mit Erkenntnissen aus den Daten erneut Fachleute zu konfrontieren. So gelangt man an Wissen, welches in den Köpfen von Spezialisten schlummert.
Vor dem Einsatz von Modellen sind immer eine umfangreiche Datenvorverarbeitung und genügend Zeit für Exploration einzuplanen. Letztere dient dazu, ein möglichst genaues Bild von den Daten und deren Qualität zu bekommen, an dem die Wahl der Algorithmen ausgerichtet werden sollte und die letztendlichen Grundvoraussetzungen für den Erfolg eines Data-Science-Projekts sind. Um die 4 – oftmals aufwendigen – Schritte 1. Exploration der Daten, 2. Säuberung der Daten, 3. Reduktion der Merkmale und 4. Auswahl der Merkmale – kommt man vor der eigentlichen Analytik nicht herum. Sie werden aber oft von Unternehmen vernachlässigt.
Analytik ist immer ein iterativer Prozess, der eine ständige Überprüfung der Ergebnisse von Modellen anhand der Realität erfordert – es sind eben nur Modelle und nicht die Realität. Es ist deshalb empfehlenswert, den neuen Anwendungsfall in kurzen Zyklen zu testen, um sicherzustellen, dass man mit der Funktionsweise vollkommen zufrieden ist. Andernfalls ist nachzusteuern. Wenn man außerdem nicht vergisst, dass datenbasierte Modelle mit Korrelationen arbeiten und keine Kausalitäten abbilden, hat man gute Chancen, die Ergebnisse richtig zu interpretieren. Um herauszufinden, welcher Algorithmus die besten Ergebnisse liefert, führt kein Weg an der Erprobung mehrerer Ansätze vorbei, gerade weil für KI und Machine Learning eine Menge an Algorithmen verfügbar sind. Das ist nicht verwunderlich, wenn man sich dessen bewusst ist, dass eine Grundannahme von KI darin besteht, dass menschliche Intelligenz das Ergebnis verschiedenster Berechnungen ist. Daraus folgt, dass sich KI selbst auch auf verschiedene Weise erzeugen lassen muss. Je nach Art der Berechnungen können KI-Systeme ausgerichtet sein, um Muster zu erkennen und demzufolge für dazu passende Problemfälle eingesetzt werden. Mit wissensbasierten KI-Systeme wird versucht, Probleme anhand von gespeichertem Wissen zu lösen. Oder es werden Wahrscheinlichkeitsmodelle auf Datenmuster angewendet, um anhand von deren Wahrscheinlichkeiten zu reagieren.
Abb. 4: Hilfe zur Auswahl geeigneter Algorithmen
In der Praxis funktioniert Problemlösen sehr selten nach "Kochbuch" und erfordert meist mehr oder sogar völlig andere Lösungswege als die, die im Schema von Abb. 4 angeboten werden. Oft sind auch Kombinationen gefragt. Da für die meisten Fragestellungen selten Lösung "von der Stange" existieren, sondern ein Problem meist erstmalig und immer spezifisch für das Unternehmen gelöst werden muss, sind im Umgang mit Daten Erfahrung und Intuition wichtig. Fast kann man auf die Frage warten: "Haben Sie unser Problem schon einmal gelöst?" Das "Nein" ist unproblematisch, wenn man glaubhaft vermitteln kann, dass es sich bei dem Projekt a) um eine Innovation handelt, die dem Unternehmen Wettbewerbsvorteile bringen wird und es sich b) um eine für das Unternehmen individuelle und spezifische Lösung handelt.
Erfahrungen im Umgang mit Algorithmen und dem Fachgebiet sind immer aber ganz besonders dann wichtig, wenn damit automatisiert Entscheidungen getroffen werden sollen, auch dann, wenn es sich dabei "nur" um schwache KI handelt (narrow AI). Die meisten der derzeit eingesetzten KI-Anwendungen gehören zur schwachen KI, und schwache KI ist ein bisschen mit einem Experten vergleichbar, der unter Nutzung spezieller Informationen (oft sind das Smart Data) eine Aufgabe besonders gut kann (wie z. B. das Erkennen von Sprache oder von Bildern). Alle anderen Aufgaben beherrscht diese Art KI nicht.
Data Science und KI-Thematik sind weitaus vielfältiger als das, was hier nur angerissen werden kann. Für KMU und Unternehmen mit wenig Erfa...