Dipl.-Inform. Jörg Schiemann
5.1 Aktualität und Qualität der Daten
Einer der wichtigsten Parameter für die Qualität der Antworten bei generativer KI ist der zugrundeliegende Zeitraum der Daten, mit denen das KI-Tool trainiert wurde. Bei ChatGPT, dem bekanntesten LLM, sind beispielsweise in der kostenlosen Version nur Daten bis zum Jahr 2021 berücksichtigt. Alle Texte zu Entwicklungen, Entdeckungen und Forschungsergebnissen, die später publiziert wurden, kennt das LLM also in dieser Version bislang nicht und kann sie nicht in generierte Antworten einbeziehen. Generell hängt die Qualität der KI und ihrer Ergebnisse nicht nur vom Umfang, sondern auch von der Qualität der Daten ab, mit denen sie trainiert wurde, problematisch sind deshalb veraltete oder falsche Wissensstände.
Bei der Nutzung generativer KI lohnt es sich, sich vorab zu informieren, welchen Stand die Trainingsdaten haben, auf die das Tool aufsetzt.
Wie groß der Mehrwert von Datenqualität generell ist, lässt sich daran ablesen, dass Datenexperten immer noch 80 % ihrer Zeit auf die Suche und Verwaltung von Daten verwenden. Nur ein Fünftel ihrer Zeit entfällt also auf Analysen, die am Ende den Mehrwert generieren.
Grundsätzlich gilt: Je mehr Daten beim Training eines LLM verwendet werden (können), desto umfangreicher und besser ist das Wissen der KI. Die nahezu bedingungslose Freigabe der KI für das gesamte Internet ist jedoch diskussionswürdig, da hierbei ungeprüft alle Informationsquellen durchsucht werden. Neben seriösen Nachrichtenquellen, können dann auch Fake News als Grundlage für die Generierung von Inhalten dienen.
5.2 Urheberrecht, Datenschutz und Privatsphäre
Bisher sammelten Webcrawler beim Training verschiedener KI in der Regel Informationen aus dem Internet, ohne die Urheber der Webseiten um Erlaubnis zu bitten. Aufgrund dieser (vermutet unerlaubten) Verwendung ihrer Texte haben deshalb Autoren wie Christopher Golden und Richard Kadrey mit der Komikerin Sarah Silverman Klage gegen OpenAI und Meta eingereicht. Auch die New York Times reichte Ende Dezember 2023 Klagen gegen OpenAI und Microsoft wegen unerlaubter Benutzung von Texten der Zeitung zum Training von AI-Technologien ein. Ferner soll ChatGPT Texte erfunden und der New York Times zugeschrieben haben.
Die Diskussion um das Urheberrecht und wie es beim Training von KI angewendet werden sollte ist in vollem Gange. Grundsätzlich braucht es zur Verwendung urheberrechtlich geschützten Materials die Erlaubnis des Urhebers (oder eine gesetzliche Erlaubnis). Da hier jedoch automatisiert Informationen, insbesondere über Muster, Trends und Korrelationen, aus frei zugänglichen Quellen aus dem Internet gewonnen werden, kann das Training von KI als sogenanntes Data Mining verstanden werden. Gemäß § 44b Text und Data Mining des deutschen Urheberrechtsgesetzes ist dies ohne Einwilligung des jeweiligen Urhebers zulässig, sofern er dieses nicht ausdrücklich und in maschinenlesbarer Form vorbehalten hat. In diesem Sinne ist also die Verwendung von urheberrechtlich geschützten Werken aus dem Internet zum Training einer KI lizenzfrei zulässig.
Im nächsten Schritt gilt es dann allerdings auch zu definieren, wie das Urheberrecht auf von der KI erzeugte Informationen, also Texte, Bilder und Videos, zu interpretieren ist. Aufgrund der hohen Qualität der erzeugten Bilder werden auch Themen wie die Verwendung genereller Wasserzeichen zur Identifikation von KI-generierten Bildern diskutiert.
Ferner gilt natürlich, dass sensible, personenbezogene Daten beim Training der KI oder der Eingabe als Prompt anonymisiert oder pseudonymisiert werden sollten, damit keine Verstöße gegen den Datenschutz erfolgen und keine Rückschlüsse auf einzelne Personen möglich sind.
Relevant wird dies insbesondere bei der Verwendung von internen Unternehmensdaten, bei denen zusätzlich darauf geachtet werden muss, dass keine vertraulichen Informationen in das Gesamtmodell der KI zurückfließen. So sollten zum Beispiel Patente oder Forschungsberichte nicht bedenkenlos in die KI eingespeist werden.
Wie wichtig eine solche Regelung ist, zeigen Zahlen einer Studie des Oliver Wyman Forum mit mehr als 15.000 Erwachsenen in 16 Ländern. Danach gaben 84 % der Arbeitnehmer, die generative KI am Arbeitsplatz nutzen, an, dass sie in den letzten 3 Monaten Daten ihres Unternehmens öffentlich zugänglich gemacht haben. Rund 10 % der Befragten nutzen generative AI ohne ihren Vorgesetzten davon zu berichten und 47 % gaben an, sie würde es auch weiterhin benutzen, selbst wenn ihre Vorgesetzten es verbieten würden.
5.3 Black Box KI
Ein Problem, an dem derzeit bereits gearbeitet wird, ist das sogenannte Black Box Risiko. Es stellt infrage, wie vertrauenswürdig eine KI ist, bei der nicht bekannt ist, wie sie zu ihren Ergebnissen gekommen ist. Das Problem beschreibt also die undurchsichtigen Entscheidungsprozesse bei KI-Systemen, bei denen die zugrundeliegenden Algorithmen und Modelle für menschliche Beobachter schwer oder gar nicht nachvollziehbar sind.
Dazu gehören als Unsicherheitsfaktore...