Datenschutz: Arbeitspapiere zu LLMs & Data Sharing

Die rasante Verbreitung von KI-Modellen wie Large Language Models (LLMs) stellt datenschutzrechtliche Herausforderungen dar. Die Internationale Arbeitsgruppe für Datenschutz in der Technologie hat unter der Leitung der BfDI zwei Arbeitspapiere veröffentlicht, die sich mit den Risiken und Lösungen im Bereich KI und Data Sharing befassen.

Die „Internationale Arbeitsgruppe für Datenschutz in der Technologie“ (IWGDPT), auch „Berlin Group“ genannt, hat unter dem Vorsitz der Bundesbeauftragten für Datenschutz und Informationsfreiheit (BfDI), Prof. Dr. Louisa Specht-Riemenschneider, zwei neue Arbeitspapiere angenommen: ein Papier zu „Large Language Models“ (LLMs) und ein Papier zum Thema „Data Sharing“. Dabei geht es um die Rechtmäßigkeit der Verarbeitung personenbezogener Daten für das Training großer KI-Sprachmodelle und datenschutzfördernde Technologien zum Datenteilen.

Arbeitspapier zum Spannungsfeld KI-Modelle und personenbezogene Daten

Die rasante Verbreitung von KI-Modellen, insbesondere von KI-Assistenten zum Generieren von Texten, die auch als Large Language Models (LLMs) bezeichnet werden, ist aus datenschutzrechtlicher Sicht höchst problematisch. LLMs sind hochkomplexe KI-Systeme, die mit großen Datenmengen trainiert werden, die häufig auch personenbezogene Daten enthalten.  Die Internationale Arbeitsgruppe für Datenschutz in der Technologie (IWGDPT), die von der Bundesbeauftragten für Datenschutz und Informationsfreiheit (BfDI), Prof. Dr. Louisa Specht-Riemenschneider, geleitet wird, hat ein Arbeitspapier veröffentlicht, das die Risiken von LLMs für den Datenschutz behandelt und zeigt, wie diesen „mit einem effektiven Verständnis der Funktionsweise der Technologie“ begegnet werden kann.

Berlin Group
Die Berlin Group ist eine unabhängige Gruppe von Expertinnen und Experten im Bereich des technologischen Datenschutzes und steht unter Leitung der BfDI. Bei ihrer Arbeit profitiert die Gruppe von ihrer heterogenen Zusammensetzung mit Teilnehmenden von Datenschutzaufsichtsbehörden, Regierungsstellen, internationalen Organisationen und Nicht-Regierungsorganisationen sowie aus der Forschung und der Wissenschaft aus allen Weltregionen.

Für das Training großer KI-Sprachmodelle sind hochwertige Trainingsdaten erforderlich. Werden dabei personenbezogene Daten verarbeitet, muss dies transparent und datenschutzrechtlich einwandfrei geschehen. Für den angemessenen Umgang mit den Trainingsdaten, den Einsatz der KI-Modelle und die „effektive, Innovationen konstruktiv begleitende Aufsicht“ ist eine umfassende Analyse erforderlich. Das LLM-Arbeitspapier der Berlin Group zeigt, wie dies gelingen kann.

Arbeitspapier zum datenschutzkonformen Datenteilen

Das zweite Arbeitspapier, das von der Berlin Group beschlossen wurde, beschäftigt sich mit dem Thema Data Sharing, also dem Teilen von Daten.

Data Sharing
Im geschäftlichen Kontext ist mit Data Sharing die Datenbereitstellung für andere Unternehmen oder der externe Datenabruf zu Geschäftszwecken gemeint. Das Spektrum reicht dabei von einseitiger bis kooperativer Datenweiterverwendung und das Datenteilen kann kostenlos, durch eine Dienstleistung oder gegen ein Entgelt erfolgen. Welche Daten geteilt werden und mit wem, hängt ganz vom Unternehmen ab. Vor allem tauschen Unternehmen Daten untereinander zur internen Effizienzsteigerung und Verbesserung ihrer Geschäftsmöglichkeiten. Die häufigsten Daten, die aktuell wiederverwendet und gemeinsam genutzt werden, entstehen dem Abschlussbericht der EU-Kommission zum Datenteilen zufolge durch das Internet-der-Dinge (54%) und interne IT-Geschäftssysteme (56%).

Das Teilen von Daten zwischen Unternehmen und Organisationen kann unter Umständen zu größeren Datenschutzverstößen und Datenmissbrauch führen. Die Hinweise im Data Sharing-Papier der Berlin Group sollen zur Entwicklung einer vertrauenswürdigen Austausch- und Rechenumgebung beitragen. Das Potenzial eines sicheren und geschützten Datenaustauschs soll maximiert werden, die Datenschutzgrundsätze aber dennoch gewahrt bleiben.

Das Arbeitspapier zeigt Wege auf, die eine datenschutzkonforme Anwendung und die Umsetzung von Innovationen ermöglichen. Datenschutzfördernde Technologien, sogenannte Privacy-Enhancing Technologies, spielen dabei eine besonders wichtige Rolle.

Weiterführende Links:

Abschlussbericht der EU-Kommission zum Datenteilen (Study on data sharing between companies in Europe, final report, engl.)

Arbeitspapier zum Data Sharing (engl.)

Arbeitspapier zu Large Language Models (LLMs) (engl.)


Schlagworte zum Thema:  Künstliche Intelligenz (KI), Datenschutz