Zusammenfassung
Seit Ende 2022 steht die generative KI-Anwendung ChatGPT weltweit in den Schlagzeilen. Manche Experten sprechen positiv von einem neuen "iPhone-Moment", von einem neuen "Internet-Moment" oder sehen andererseits sogar die Menschheit bedroht. Klar ist: KI-Anwendungen werden sich in allen Lebensbereichen ausbreiten. Die Steuerberatung wird dabei keine Ausnahme sein. Grund genug für die Haufe Steuerredaktion, sich intensiv mit den neuen Möglichkeiten auseinanderzusetzen.
Die Haufe Steuerredaktion hat sich im März 2023 zusammen mit Kollegen aus anderen Redaktionen Gedanken über die Einsatzmöglichkeiten von ChatGPT gemacht und dazu tiefgreifende Tests durchgeführt. Dabei standen neben Fragen, wie die Anwendung für die redaktionelle Arbeit und die Verbesserung und Weiterentwicklung unserer Datenbanken genutzt werden kann, auch die Einsatzmöglichkeiten in den Steuerkanzleien im Vordergrund. Im Rahmen der Tests wurde außerdem eine Redaktionsrichtlinie zum Einsatz von künstlicher Intelligenz entwickelt. Nachfolgend geben wir hier einen ersten Einblick in unsere Erfahrungen und geben eine Einschätzung ab, was ChatGPT & Co. für die Steuerberatung bedeuten.
Was haben wir getestet?
Wie gut kann ChatGPT mit steuerrechtlichen Sachverhalten umgehen? Um dieser Frage nachzugehen, haben wir zahlreiche Tests mit dem KI-Tool durchgeführt.
In unseren Fachdatenbanken für Steuerexperten, wie etwa dem Haufe Steuer Office, stellen wir u. a. Fachbeiträge, Kommentare und Arbeitshilfen sowie Rechtsgrundlagen zur Verfügung. Dazu gehören auch die Gerichtsentscheidungen, Verwaltungsanweisungen und Gesetzestexte. Wir sind der Frage nachgegangen: Kann ChatGPT Texte aus diesen Primärquellen zuverlässig zusammenfassen?
Außerdem testeten wir, wie gut ChatGPT Fachtexte, z. B. News aus unserem Portal haufe.de/steuern vereinfachen kann, sodass sie z. B. als Information für Mandanten geeignet sind.
Wie wurde getestet?
Da ChatGPT (GPT-4) zum Testzeitpunkt (März/April 2023) nur eine begrenzte Anzahl von Wörtern verarbeiten konnte, wurden nur Teile der jeweiligen Primärtexte (z. B. der Sachverhalt einer Entscheidung) in den jeweiligen Prompt eingefügt. Als Prompt wird die Eingabe des Benutzers in die Statuszeile bezeichnet, zu dem das System das Ergebnis liefern soll; es handelt sich also um die Aufgabe, die man ChatGPT stellt. Die Qualität des Prompts ist entscheidend für die Qualität der Ergebnisse, die ChatGPT liefert.
Bewertet wurde mit Schulnoten anhand folgender Kriterien:
- Faktentreue/inhaltliche Richtigkeit,
- Sprache/Stil,
- Rechtschreibung/Grammatik.
Das waren unsere Ergebnisse
Die Qualität der Ergebnisse war sehr unterschiedlich. Rechtschreibung und Grammatik waren durchweg sehr gut, nahezu fehlerlos. Sprache und Stil waren in 80 % der Fälle gut bis sehr gut. Beim wichtigsten Kriterium, der inhaltlichen Qualität, überwogen die guten Ergebnisse leicht. Allerdings mussten wir feststellen, dass in einigen Fällen zwar keine expliziten Fehler im Text enthalten waren, ChatGPT jedoch bei der Zusammenfassung wichtige Punkte entweder weggelassen oder die genannten Punkte falsch gewichtet hatte. Im Ergebnis waren daher einige Antworten nicht zur Veröffentlichung geeignet, obwohl sie sprachlich gut waren und keine expliziten Falschaussagen enthielten.
Im weiteren Verlauf der Tests versuchten wir, Texte aus unserem Portal haufe.de/steuern, die für Steuerexperten geschrieben wurden, so zu vereinfachen, dass auch steuerliche Laien damit etwas anfangen können. Auf diese Weise könnten z. B. Mandanteninformationen aufbereitet werden.
Das Vereinfachen der Texte gelang gut, allerdings ließen die Ergebnisse sprachlich bzw. grammatikalisch an einigen Stellen zu wünschen übrig. Außerdem wurde die Aussage durch sprachliche Ungenauigkeiten teilweise so verfälscht, dass die Texte sich nicht ohne Anpassungen für eine Veröffentlichung eigneten. Als Basis für eine weitere Bearbeitung hätte man sie aber durchaus verwenden können.
Und dann war da noch die Sache mit dem "Halluzinieren"! Immer wieder erfand ChatGPT vermeintliche Fakten, die nichts mit den vorgegebenen Sachverhalten zu tun hatten, sich aber durchaus plausibel anhörten. Ein Phänomen, das man durch geschickte Fragestellungen zwar minimieren, aber nie ganz ausschließen konnte.
Welche Einsatzmöglichkeiten für ChatGPT sind in Steuerkanzleien denkbar?
Neben den zuvor dargestellten redaktionellen Tests haben wir auch Ideen entwickelt, wie man ChatGPT gewinnbringend für den Kanzleialltag einsetzen könnte:
Ein Anwendungsfall könnten z. B. die bereits oben erwähnten Mandanteninformationen sein. Auch sonstige Schreiben an Mandanten (z. B. Anforderung von Unterlagen) oder an das Finanzamt können mit KI-Unterstützung vorbereitet werden. Hilfreich ist dabei, dass ChatGPT über 40 Sprachen beherrscht, so können z. B. auch Schreiben an ausländische Mandanten oder Behörden verfasst werden.
Seine Stärken beim Verfassen von Texten kann ChatGPT noch bei einer Reihe anderer Textformen ausspielen. So kann ChatGPT bei der Erstellung von Fachbeiträgen oder Vortragsfolien unterstützen, indem z. B. Gliederungen vorgeschlagen werden. Auch das Erstellen von Social Media Posts basierend auf Fachtext...