Koreelation und Kausalität

Big Data, Machine Learning und Predictive Analytics - mit diesen neuen Technologien sollen  zukünftig Reports und Forecasts auf Basis von Massendaten automatisiert und in Echtzeit erstellt werden. Auf den Faktor Mensch kann und darf diese schöne neue, digitalisierte Welt dennoch nicht verzichten. Denn auch hochwertige und umfangreiche Daten müssen sinnvoll interpretiert werden, wie der "Survivorship Bias" zeigt.

Algorithmen haben keinen gesunden Menschenverstand

Es gibt ein wichtiges Merkmal von Algorithmen, das man beim Thema Machine Learning und Predictive Analytics nicht aus den Augen verlieren darf: Algorithmen können noch so leistungsstark sein, sie haben aber keinen gesunden Menschenverstand. Trotz des Hype um die vielen, potenziell nutzbringenden Anwendungen von Machine Learning sollte klar sein, dass Predictive Analytics nichts macht, was ein Analytiker mit einer Tabellenkalkulation nicht auch erreichen könnte – wenn er dafür nur genügend Zeit hätte.

Zudem braucht es gesunden Menschenverstand, um Daten korrekt zu interpretieren. Wir neigen oft zu einer Überbewertung von Erfolgen und dem selektiven Ausblenden von Misserfolgen. Die Wissenschaft hat dafür den Begriff „Survivorship Bias“ geprägt. Dieses Phänomen spielt auch bei allen Spielarten von Analytics und Machine-Learning-Anwendungen eine Rolle. 

Auf die Interpretation kommt es an

Die Entdeckung des Phänomens des Survivorship Bias geht auf die Luftschlacht um England im Zweiten Weltkrieg zurück. Englische Ingenieure studierten die Einschusslöcher der aus dem Einsatz zurückkommenden Flugzeuge. Ihnen fiel auf, dass bestimmte Stellen sehr häufig getroffen wurden (s. Abb.). Die vermeintlich schlaue Lösung der Ingenieure bestand darin, diese Stellen durch Panzerung zu verstärken. Ein Erfolg blieb jedoch aus, es kamen nicht mehr Flugzeuge zurück als bisher. 

Der ungarische Mathematiker Abraham Wald fand schließlich heraus, dass der Erfolg größer ist, wenn man die Stellen besser schützt, die keine Einschusslöcher aufweisen. Schließlich waren die zurückkehrenden Flugzeuge ja der beste Beleg dafür, dass die Stellen mit Einschusslöchern nicht problematisch für die Rückkehr waren. Treffer an den anderen Stellen hingegen waren offensichtlich fatal, denn Maschinen mit solchen Treffern kehrten gar nicht erst zurück. 

Kausalität vs. Korrelation

Die Lektion aus dieser Geschichte ist also, dass Machine Learning und die Anwendung von Algorithmen keinesfalls die gründliche Analyse der Ergebnisse und die kritische Überprüfung der Modelle an der Realität ersetzen können.

Der Philosoph Byung-Chul Han bringt das Big-Data-Dilemma auf den Punkt:

Selbst die größte Ansammlung von Informationen, Big Data, verfügt über sehr wenig Wissen. Anhand von Big Data werden Korrelationen ermittelt. Die Korrelation besagt: Wenn A stattfindet, so findet oft auch B statt. Warum es so ist, weiß man aber nicht. Die Korrelation ist die primitivste Wissensform, die nicht einmal in der Lage ist, das Kausalverhältnis, d. h. das Verhältnis von Ursache und Wirkung, zu ermitteln. Es ist so. Die Frage nach dem Warum erübrigt sich hier. Es wird also nichts begriffen. Wissen ist aber Begreifen. So macht Big Data das Denken überflüssig. Wir überlassen uns bedenkenlos dem Es-Ist-so.

(Han, Im Schwarm. Ansichten des Digitalen, 2013)

 

Dies sollte man immer beim Einsatz von automatischen und selbstlernenden Algorithmen berücksichtigen.

Entnommen aus: Nagel, Matthias/Riedel, Ralph/Nagel, Matthes; "Predictive Maintenance: Zukunftsweisender Ansatz für mehr Effektivität und Effizienz in der Instandhaltung", in  Klein, Modernes Produktionscontrolling für die Industrie 4.0, 2018.


Schlagworte zum Thema:  Analytics, Big Data, Digitalisierung