Dr. Matthias Nagel, Prof. Dr.-Ing. Ralph Riedel
Es gibt noch einen weiteren wichtigen Aspekt der Algorithmen, der in all den Beispielen und oft als Machine Learning eine zentrale Rolle spielt. Trotz des Hype um viele nutzbringende Anwendungen von Machine Learning sollte klar sein, dass Predictive Analytics nichts anderes macht, was ein Analytiker mit Bleistift und Papier oder einer Tabellenkalkulation nicht auch erreichen könnte – wenn er dafür nur genügend Zeit hätte. Die Algorithmen sind zwar leistungsstark, haben aber keinen gesunden Menschenverstand.
Survivorship Bias
Wir neigen gern zu einer Überbewertung von Erfolgen und dem selektiven Ausblenden von Misserfolgen. Es gibt dafür den Begriff Survivorship Bias. Das trifft natürlich auch auf alle Spielarten von Analytics und Machine Learning Anwendungen zu.
Die Geschichte des Survivorship Bias geht auf die Luftschlacht um England im Zweiten Weltkrieg zurück. Englische Ingenieure haben aus dem Einsatz zurückkommende Flugzeuge mit deren Einschusslöchern studiert. Ihnen fiel auf, dass bestimmte Stellen sehr häufig getroffen wurden (s. Abb. 7). Die vermeintlich schlaue Lösung der Ingenieure bestand darin, diese Stellen durch Panzerung zu verstärkten. Ein Erfolg blieb jedoch aus, es kamen nicht mehr Flugzeuge zurück als bisher.
Abb. 7: Ein prominentes Beispiel für Survivorship Bias
Der ungarische Mathematiker Abraham Wald fand schließlich heraus, dass der Erfolg größer ist, wenn man Stellen besser schützt, die keine Einschusslöcher haben. Denn die zurückkehrenden Flugzeuge waren ja der beste Beleg dafür, dass die Stellen mit Einschusslöchern nicht problematisch für die Rückkehr waren. Treffer an den anderen Stellen hingegen waren offensichtlich fatal, denn Maschinen mit solchen Treffern kehrten gar nicht erst zurück.
Kausalität vs. Korrelation
Machine Learning und die Anwendung von Algorithmen können keinesfalls ein Begreifen und gründliches Nachdenken über Ergebnisse von Lösungen mit kritischer fachlicher Überprüfung der Modelle an der Realität ersetzen (vgl. Beispiele in Abschnitten 5 und 6).
Der Philosoph Byung-Chul Han bringt das Big-Data-Dilemma auf den Punkt:
"Selbst die größte Ansammlung von Informationen, Big Data, verfügt über sehr wenig Wissen. Anhand von Big Data werden Korrelationen ermittelt. Die Korrelation besagt: Wenn A stattfindet, so findet oft auch B statt. Warum es so ist, weiß man aber nicht. Die Korrelation ist die primitivste Wissensform, die nicht einmal in der Lage ist, das Kausalverhältnis, d. h. das Verhältnis von Ursache und Wirkung, zu ermitteln. Es ist so. Die Frage nach dem Warum erübrigt sich hier. Es wird also nichts begriffen. Wissen ist aber Begreifen. So macht Big Data das Denken überflüssig. Wir überlassen uns bedenkenlos dem Es-Ist-so."
Dies sollte man immer beim Einsatz von automatischen und selbstlernenden Algorithmen berücksichtigen.