Dipl.-Inform. Jörg Schiemann
Bisher sammelten Webcrawler beim Training verschiedener KI in der Regel Informationen aus dem Internet, ohne die Urheber der Webseiten um Erlaubnis zu bitten. Aufgrund dieser (vermutet unerlaubten) Verwendung ihrer Texte haben deshalb Autoren wie Christopher Golden und Richard Kadrey mit der Komikerin Sarah Silverman Klage gegen OpenAI und Meta eingereicht. Auch die New York Times reichte Ende Dezember 2023 Klagen gegen OpenAI und Microsoft wegen unerlaubter Benutzung von Texten der Zeitung zum Training von AI-Technologien ein. Ferner soll ChatGPT Texte erfunden und der New York Times zugeschrieben haben.
Die Diskussion um das Urheberrecht und wie es beim Training von KI angewendet werden sollte ist in vollem Gange. Grundsätzlich braucht es zur Verwendung urheberrechtlich geschützten Materials die Erlaubnis des Urhebers (oder eine gesetzliche Erlaubnis). Da hier jedoch automatisiert Informationen, insbesondere über Muster, Trends und Korrelationen, aus frei zugänglichen Quellen aus dem Internet gewonnen werden, kann das Training von KI als sogenanntes Data Mining verstanden werden. Gemäß § 44b Text und Data Mining des deutschen Urheberrechtsgesetzes ist dies ohne Einwilligung des jeweiligen Urhebers zulässig, sofern er dieses nicht ausdrücklich und in maschinenlesbarer Form vorbehalten hat. In diesem Sinne ist also die Verwendung von urheberrechtlich geschützten Werken aus dem Internet zum Training einer KI lizenzfrei zulässig.
Im nächsten Schritt gilt es dann allerdings auch zu definieren, wie das Urheberrecht auf von der KI erzeugte Informationen, also Texte, Bilder und Videos, zu interpretieren ist. Aufgrund der hohen Qualität der erzeugten Bilder werden auch Themen wie die Verwendung genereller Wasserzeichen zur Identifikation von KI-generierten Bildern diskutiert.
Ferner gilt natürlich, dass sensible, personenbezogene Daten beim Training der KI oder der Eingabe als Prompt anonymisiert oder pseudonymisiert werden sollten, damit keine Verstöße gegen den Datenschutz erfolgen und keine Rückschlüsse auf einzelne Personen möglich sind.
Relevant wird dies insbesondere bei der Verwendung von internen Unternehmensdaten, bei denen zusätzlich darauf geachtet werden muss, dass keine vertraulichen Informationen in das Gesamtmodell der KI zurückfließen. So sollten zum Beispiel Patente oder Forschungsberichte nicht bedenkenlos in die KI eingespeist werden.
Wie wichtig eine solche Regelung ist, zeigen Zahlen einer Studie des Oliver Wyman Forum mit mehr als 15.000 Erwachsenen in 16 Ländern. Danach gaben 84 % der Arbeitnehmer, die generative KI am Arbeitsplatz nutzen, an, dass sie in den letzten 3 Monaten Daten ihres Unternehmens öffentlich zugänglich gemacht haben. Rund 10 % der Befragten nutzen generative AI ohne ihren Vorgesetzten davon zu berichten und 47 % gaben an, sie würde es auch weiterhin benutzen, selbst wenn ihre Vorgesetzten es verbieten würden.