Schon kurz nachdem ChatGPT in aller Munde war, beschäftigte die juristische Welt in den USA eine Frage: Würde der Chat-Bot das Bar Examen bestehen können? Erste Versuche deuteten in die Richtung, dass ChatGPT im Multiple-Choice-Teil recht passabel abschneiden würde. Die Debatte schwappte dann auch nach Deutschland über. Hier wurde – allerdings ohne belastbaren empirischen Beweis – behauptet, in der ersten juristischen Prüfung sei etwas Paralleles möglich. Wie dem auch sei: Für eine Lernerfolgskontrolle in der anwaltlichen Fortbildung ist die Frage noch nicht untersucht worden. Gegenstand des Versuchs, der diese Lücke schließen soll, ist im Folgenden die Lernerfolgskontrolle in der Konstellation von § 15 Abs. 4 FAO.
Nach § 15 Abs. 1 S. 1 FAO müssen alle, die eine Fachanwaltsbezeichnung führen, kalenderjährlich auf diesem Gebiet wissenschaftlich publizieren oder an fachspezifischen der Aus- oder Fortbildung dienenden Veranstaltungen hörend oder dozierend teilnehmen. § 15 Abs. 4 FAO erlaubt eine Modifikation: Bis zu fünf Zeitstunden können im Wege des Selbststudiums absolviert werden, sofern eine Lernerfolgskontrolle erfolgt. Viele Anbieter, die ein solches Selbststudium ermöglichen, arbeiten mit Multiple-Choice-Tests. Die Teilnehmerinnen und Teilnehmer sollen dabei im ersten Schritt einen Text studieren. Dabei kann es sich um Literatur oder Rechtsprechung handeln. Im Anschluss sind dann Multiple-Choice-Fragen zu beantworten, die ein Verständnis der jeweiligen Texte voraussetzen. Damit hat man ein Szenario, in dem ChatGPT und dessen Konkurrenz auf den Prüfstand gestellt werden können. Ein solcher Test wird im Folgenden beschrieben. Die Textgrundlage für die Multiple-Choice-Fragen bildeten in concreto fünf BGH-Entscheidungen und eine OLG-Entscheidung mit insgesamt 59 Seiten Umfang. Daran schlossen sich 15 Multiple-Choice-Fragen an. Die Zahl der Antwortalternativen reichte von zwei bis drei. Dabei war der Instruktion nach jeweils nur eine Antwortalternative als richtig vorgesehen. Als geschätzte Arbeitszeit wurden fünf Stunden angegeben.
Der Test mit ChatGPT wurde in der kostenpflichtigen Version 4.0 durchgeführt. Um die Eingabe größerer Textmengen zu ermöglichen, kam ein Plug-in zum Einsatz. Mit Hilfe eines solchen Plug-ins wurde das PDF-Dokument ChatGPT 4.0 mit wenigen Klicks als Arbeitsgrundlage zur Verfügung gestellt. Danach konnten die Multiple-Choice-Fragen schrittweise zur Prüfung vorgelegt werden. Inhaltlich stellte sich das Ergebnis wie folgt dar: 13 Multiple-Choice-Fragen wurden zutreffend beantwortet, zwei hingegen unzutreffend.
Die juristische Debatte in Deutschland rund um die Large Language Models hat sich fast ausschließlich auf ChatGPT fokussiert. Es handelte sich dabei um eine methodisch problematische Engführung, da andere konkurrierende Sprachmodelle überwiegend nicht betrachtet wurden. Es gab – allerdings nicht genügend beachtete – Indizien dafür, dass andere Sprachmodelle – bezogen auf bestimmte Prüfsituationen – ChatGPT überlegen sind. Als besonderer Kandidat wurde insofern Claude von Anthropic ins Spiel gebracht. Deswegen wurde die eben mit ChatGPT durchgeführte Lernerfolgskontrolle mit Claude 2.0 wiederholt. Die Arbeit gestaltete sich von vornherein insofern einfacher als bei ChatGPT, weil bei Claude 2.0 ein PDF-Upload implementiert ist. Die Datei mit den 59 Seiten konnte auf diese Weise problemlos eingegeben werden. Im Ergebnis beantwortete Claude 2.0 lediglich eine Frage falsch. Auffällig war allerdings, dass dies eine Frage war, die ChatGPT richtig beantwortet hatte. In der vergleichenden Betrachtung ist aber festzustellen, dass die Fehlerquote von Claude 2.0 (1/15) besser war als die von ChatGPT (2/15). Dies entspricht im Übrigen mittlerweile vorliegenden vergleichenden Tests zum Bar Examen.
Bei dem Test fiel noch ein methodisch bemerkenswerter Umstand auf: In der „Musterlösung”, die Anwältinnen und Anwälte als Rückmeldung erhalten, wenn sie sich der Fortbildungsaufgabe unterzogen haben, wurden zu der Frage „Was gilt in den Fällen einer Untervermietung?” zwei Antwortmöglichkeiten als korrekt bezeichnet, und zwar die folgenden:
- Der Untermieter ist regelmäßig nicht in den Schutzbereich des Hauptmietvertrags einbezogen.
- Der Untermieter ist regelmäßig in den Schutzbereich des Hauptmietvertrags einbezogen.
Abgesehen davon, dass dies der zugrundeliegenden Multiple-Choice-Logik widersprach (nur eine richtige Antwort pro Frage), sind die beiden gleichzeitig als korrekt bezeichneten Antworten ersichtlich widersprüchlich. Auch dazu wurde ChatGPT wie folgt befragt:
„Mein Ausbilder sagt aber, dass Antwort 1 und Antwort 2 richtig sind. Ist es nicht ausgeschlossen, dass Antwort 1 und Antwort 2 richtig sind? Wäre das nicht widersprüchlich?”
Daraufhin antwortete ChatGPT folgendermaßen:
"Ja, Sie haben recht. Antwort 1 und Antwort 2 sind widersprüchlich. Wenn der Untermieter "regelmäßig nicht in den Schutzbereich des Hauptmietvertrags einbezogen ist (Antwort 1), dann kann er nicht gleichzeitig "regelmäßig in ...