Zusammenfassung
Die Welt ist aus den Fugen, seit der Textgenerator ChatGPT öffentlich vorgestellt wurde. Auch sind die beeindruckenden Leistungen der Bildgeneratoren wie DallE2 oder Midjourney in aller Munde. Dies bietet Anlass, sich mit den aufgeworfenen urheberrechtlichen Fragestellungen auseinanderzusetzen.
ChatGPT erfreut nicht nur Schüler und Studenten bei einer vereinfachten Bearbeitung ihrer Hausarbeiten, auch im geschäftlichen Umfeld wird diese künstliche Intelligenz (KI) zunehmend eingesetzt, erleichtert sie doch die eigene Denkleistung ungemein. Gleichzeitig werden die Gefahren derartiger Tools heraufbeschworen, von einem "Tsunami des Cheatens" ist im Magazin Gizmodo die Rede. Erste französische Elite-Universitäten untersagen bereits die Nutzung, und New Yorker Schulen verbannen KIs wie ChatGPT von öffentlichen Schulen.
Fragt man ChatGPT, so wird man belehrt, dass ChatGPT auf einem tiefen neuronalen Netzwerk basiere, das auf großen Mengen von Texten trainiert wurde und während des Trainings gelernt habe, Sprachmuster und Zusammenhänge zu erkennen, um menschenähnliche Antworten auf Fragen zu geben. ChatGPT verwende dabei Techniken wie maschinelles Lernen, Sprachmodellierung und künstliche Intelligenz. Um eine Antwort zu generieren, werde eine Methode namens "Generative Pre-trained Transformer" (GPT) verwendet, die auf einer Architektur namens "Transformers" basiert. Diese Architektur wurde speziell für Sprachverarbeitungsaufgaben entwickelt und ermögliche es, eine große Bandbreite an Sprachmustern zu verstehen und zu generieren.
Neben dem Textgenerator ChatGPT existieren zahlreiche Bildgeneratoren, die alle ebenfalls auf KI basieren. Mithilfe kurzer Textbefehle, sog. "prompts", können neue Texte oder Bilder erschaffen werden. Auf einem Modell des "Deep Learning" beruhend, werden sie mit großen Datenmengen aus dem Internet und sodann mit Algorithmen trainiert, sodass KIs in der Lage sind, eigene neue Inhalte auszugeben. Anschaulich wurde das Training beispielsweise an Projekten wie Next Rembrandt und auch im Rahmen der Vervollständigung von Beethovens 10. Symphonie. Dabei wurden von der KI wiederkehrende Stilelemente des jeweiligen Künstlers analysiert und extrahiert, um auf dieser Basis neue Werke zu schaffen. Berühmt wurde das Porträt eines gewissen fiktiven Edmond de Belamy, welches aus einem Datenset von 15.000 Porträts beruht und als eines der ersten seiner Gattung bereits 2018 bei Christie’s versteigert wurde.
Inzwischen sind erste Gerichtsverfahren anhängig, und nicht nur Getty Images wehrt sich gegen das sog. "Scraping" seines Bildmaterials, das sich auf ein vermeintlich verletztes Repertoire von sage und schreibe 12 Millionen Fotografien beläuft. Dieser Beitrag beleuchtet die aufgeworfenen Fragestellungen anhand des deutschen Urheberrechts.
KI und das Urheberrecht
Drei urheberrechtliche Themenkomplexe sind zu unterscheiden:
- Die Frage nach der urheberrechtlichen Bewertung im Hinblick auf die in die KI eingespeisten Daten, der sog. Input.
- Die Frage, wer Urheber der mittels KI generierten Ergebnisse ist oder anders gefragt, ob und unter welchen Voraussetzungen Bilder und Texte trotz des Einsatzes von KI eine kreative Leistung desjenigen sein können, der die KI einsetzt.
- Ist schließlich zu untersuchen, ob durch KI generierte Werke eventuell in bestehende Urheberrechte eingegriffen wird.
Rechtsverletzung bereits beim Input?
Zwangsläufig stellt man sich zuerst die Frage, ob die Verwendung von Datensätzen zum Training von KI-Anwendungen rechtlich überhaupt zulässig ist. So wehrt sich nicht nur Getty Images hiergegen, auch die Künstlerinnen Sarah Andersen, Kelly McKernan und Karla Ortiz klagen vor US-amerikanischen Gerichten gegen die Nutzung ihrer Bilder zu Trainingszwecken mit dem Vorwurf, die Werke seien ohne entsprechende Einwilligung in die Datenbanken der KI-generierte Systeme eingespeist worden.
Nach Angaben von OpenAI stammen die ursprünglichen Datenmengen mit Stand 2020 aus dem Internet, z. B. aus Büchern, Wikipedia und anderen frei zugänglichen Textquellen.
Grundsätzlich bedarf es zur Verwendung urheberrechtlich geschützter Texte oder Bilder einer Erlaubnis des Urhebers oder einer gesetzlichen Erlaubnis, dem Grunde nach also auch für die Verwendung von Werken zu Trainingszwecken für eine KI. Nach deutschem Recht greift hier die Schranke des sog. "Data Mining" ein. Unter Data Mining wird dabei die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken zur Gewinnung von Informationen, insbesondere über Muster, Trends und Korrelationen, verstanden. Nach der auf einer europäischen Richtlinie aus dem Jahr 2019 beruhenden Vorschrift des § 44b UrhG sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining auch ohne Einwilligung des jeweiligen Urhebers zulässig.
Das Training einer KI-Anwendungen unter Verwendung von urheberrechtlich geschützten Werken ist dementsprechend grundsätzlich lizenzfrei zulässig. Nach Abschluss des Trainings sind die ...