Die Qualität der Ergebnisse war sehr unterschiedlich. Rechtschreibung und Grammatik waren durchweg sehr gut, nahezu fehlerlos. Sprache und Stil waren in 80 % der Fälle gut bis sehr gut. Beim wichtigsten Kriterium, der inhaltlichen Qualität, überwogen die guten Ergebnisse leicht. Allerdings mussten wir feststellen, dass in einigen Fällen zwar keine expliziten Fehler im Text enthalten waren, ChatGPT jedoch bei der Zusammenfassung wichtige Punkte entweder weggelassen oder die genannten Punkte falsch gewichtet hatte. Im Ergebnis waren daher einige Antworten nicht zur Veröffentlichung geeignet, obwohl sie sprachlich gut waren und keine expliziten Falschaussagen enthielten.

Im weiteren Verlauf der Tests versuchten wir, Texte aus unserem Portal haufe.de/steuern, die für Steuerexperten geschrieben wurden, so zu vereinfachen, dass auch steuerliche Laien damit etwas anfangen können. Auf diese Weise könnten z. B. Mandanteninformationen aufbereitet werden.

Das Vereinfachen der Texte gelang gut, allerdings ließen die Ergebnisse sprachlich bzw. grammatikalisch an einigen Stellen zu wünschen übrig. Außerdem wurde die Aussage durch sprachliche Ungenauigkeiten teilweise so verfälscht, dass die Texte sich nicht ohne Anpassungen für eine Veröffentlichung eigneten. Als Basis für eine weitere Bearbeitung hätte man sie aber durchaus verwenden können.

Und dann war da noch die Sache mit dem "Halluzinieren"! Immer wieder erfand ChatGPT vermeintliche Fakten, die nichts mit den vorgegebenen Sachverhalten zu tun hatten, sich aber durchaus plausibel anhörten. Ein Phänomen, das man durch geschickte Fragestellungen zwar minimieren, aber nie ganz ausschließen konnte.

Dieser Inhalt ist unter anderem im Steuer Office Basic enthalten. Sie wollen mehr?


Meistgelesene beiträge