Das Verfahren, das für die Durchbrüche und den ungebrochenen Hype um KI verantwortlich ist, heißt maschinelles Lernen, ein Teilgebiet der künstlichen Intelligenz. Das maschinelle Lernen ist ein Verfahren, bei dem der Computer durch mathematische Methoden in die Lage versetzt wird, quasi "selbst" Zusammenhänge und Strukturen in Daten zu erkennen, ohne dass diese vorher im Einzelnen programmiert werden müssen. Der Computer kann so auch mit Daten umgehen, die er vorher noch nicht gesehen hat.
Bei maschinellem Lernen wird ein Computer mit immensen Datenmengen "trainiert", die ihm die Möglichkeit geben, zu "lernen", wie man eine bestimmte Aufgabe ausführt.
Texterkennung
Der Computer wertet 1.000 unterschiedliche Digitale, bekannte Fotos der handgeschriebenen Zahl "4" aus und "lernt" hierbei, welche Anordnungen von Pixeln alle weitgehend gemeinsam haben. "Lernen" heißt: Die KI passt die Formeln, mit denen sie arbeitet, so lange an, bis die Ergebnisse der Formeln das erwartete Ergebnis liefern. Legt man der KI nun eine unbekannte neue handschriftliche "4" vor, kann sie Wahrscheinlichkeiten ausgeben: 84 %, dass es eine "4" ist, 16 %, dass es eine "9" ist usw.
Vergleicht eine Software hingegen einfach gescannte Druckbuchstaben einer bestimmten Schriftart mit einer statischen Datenbank, handelt es sich nicht um KI oder maschinelles Lernen.
Das selbstlernende Element ist der entscheidende Unterschied zu gewöhnlichen (sog. deterministischen) Softwareanwendungen. Letztere bestehen aus Algorithmen, also einer Vielzahl von vordefinierten starren Anweisungen oder Funktionen. KI-basierte Anwendungen bestehen zwar auch aus Algorithmen als kleinste Einheit. Ihre Parameter passen sich allerdings an die Trainingsdaten an – daher "selbstlernend".
KI und Big-Data
Die Begriffe KI und Big-Data werden häufig zusammengedacht. Denn die Anzahl der Trainingsdaten muss je nach Problemstellung eine kritische Menge erreichen. Grundsätzlich gilt: Je mehr Daten, desto besser das Modell. Lernt eine KI anhand bestimmter Daten, ist sie nur so gut, wie die Datenqualität, aus denen sie gelernt hat.
Es gibt überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen. Der Unterschied wirkt sich in der Praxis aus. Bei überwachtem maschinellem Lernen wird die KI mit beschrifteten Datensätzen trainiert. Beispiel: Ein KI-basierter Spam-Filter würde folglich nicht nur mit Spam- und Nicht-Spam-Emails trainiert werden, sondern mit der Zusatzinformation: "Das ist eine Spam-Email" und "Das ist keine Spam-Email". Die KI könnte sodann anhand einer Vielzahl beschrifteter Beispiele mit gewisser Wahrscheinlichkeit neue Spam-Emails erkennen, weil sie anhand vieler Beispiele und Merkmale die Unterschiede gelernt hat. Für die Praxis bedeutet das: Es bedarf ggf. menschlicher Arbeit im Unternehmen, um genügend Daten vorzuhalten und zu beschriften, bevor die KI lernen kann.
Überwachtes maschinelles Lernen
Die Anwendungsbeispiele für überwachtes maschinelles Lernen sind etwa sog. Klassifizierungsprobleme (Spam oder kein Spam, Hund oder Katze), Texterkennung oder Prognoseprobleme (Personal-, Umsatzprognosen).
Beim unüberwachten maschinellen Lernen wird eine KI mit unbeschrifteten Daten trainiert und entdeckt hierbei selbst Muster und Zusammenhänge in Daten. Die KI kann diese selbstständig sortieren, in Strukturen fassen und Auffälligkeiten entdecken. Hierbei besteht die Gefahr, dass Muster erkannt werden, die für die Aufgabe nicht sinnvoll sind.
Für die Praxis bedeutet das: Das Unternehmen muss hier in der Regel verstärkt nachprüfen und nachsteuern.
Unüberwachtes maschinelles Lernen
Anwendungsbeispiele für unüberwachtes maschinelles Lernen sind allgemein die Strukturerkennung, z. B. Empfehlungsanwendungen ("Andere Kunden haben auch folgende Artikel gekauft…"), Segmentierung von Personengruppen, sowie das Auffinden von Anomalien.