Machine-Learning-Technologien im Umweltbundesamt

Wie kann mit unstrukturierten Daten effizient gearbeitet werden? In einem Vortrag befassten sich Dr. Raphael Kozlovsky und Marco Maisenbacher mit dem Einsatz von AI im Umweltbundesamt.

Das Umweltbundesamt – Deutschlands zentrale Umweltbehörde

Das Umweltbundesamt (UBA) ist Deutschlands zentrale Umweltbehörde und hat das übergeordnete Ziel, zu einer gesunden Umwelt für die Bevölkerung beizutragen. Um dies zu erreichen, forscht das UBA selbst zu umweltrelevanten Themen, berät die Politik zu Fragen des Umweltschutzes und entwickelt Frühwarnsysteme in Bezug auf umweltrelevante Ereignisse. Eine wesentliche Aufgabe des UBA besteht zudem darin, in einen Dialog mit der Öffentlichkeit zu treten und umweltrelevante Informationen bereitzustellen.

In einer Zusammenarbeit mit Horváth wurde in einem gemeinsamen Projekt untersucht, wie Arbeitsprozesse und Fachverfahren im UBA durch den Einsatz von Machine-Learning (ML) Methoden unterstützt und optimiert werden können. Dabei wurden vier konkrete Anwendungsfälle spezifiziert, für die ML-Modelle entwickelt und in einer prototypischen Anwendung erfolgreich implementiert wurden.

Identifikation potenzieller Effizienzhebel

Zur Identifikation der potenziellen Anwendungsfälle wurde von Horváth eine interne Umfrage im UBA durchgeführt. Zunächst wurde den Mitarbeiterinnen und Mitarbeitern das Thema ML mithilfe eines Einführungsvideos nähergebracht. In der Folge wurden gezielt datenbezogene Prozesse identifiziert, um potenzielle Einsatzmöglichkeiten von ML zu ermitteln. Dabei wurden die Datentypen zur besseren Einordnung der ML-Anwendungsfälle in vier Kategorien unterteilt – Text-Dokumente, Bilder, Sensordaten und Tonaufnahmen:

Vier Kategorien möglicher Datentypen beim UBA — Bild: Horváth

Potenzielle Anwendungsfälle für den Einsatz von Machine Learning

Nach der Auswertung der Umfrage wurden insgesamt 35 potenzielle Anwendungsfälle identifiziert, bei denen Prozesse oder Fachverfahren durch den Einsatz von ML unterstützt oder optimiert werden können. Die 35 Anwendungsfälle wurden hinsichtlich des erwarteten Mehrwerts und der Machbarkeit priorisiert.

Zehn Anwendungsfälle mit besonders hohem Mehrwert und Machbarkeit wurden als "Quick Wins" identifiziert, von denen vier im Rahmen des Projektes prototypisch umgesetzt wurden. Im Folgenden soll einer dieser vier Anwendungsfälle exemplarisch beschrieben werden.

Erhebliche Effizienzsteigerung durch Machine-Learning am Beispiel der Umweltforschungsdatenbank

Die Umweltforschungsdatenbank (UFORDAT) ist eine umfangreiche Sammlung von umweltrelevanten Forschungsvorhaben innerhalb Deutschlands. Ihr Hauptziel besteht darin, die Vermeidung von Doppelforschung zu gewährleisten: Vor der Umsetzung eines neuen Forschungsvorhabens sollte mithilfe der UFORDAT überprüft werden, ob es bereits ähnliche Forschungsvorhaben gibt. Das UBA erhält jährlich rund 50.000 Beschreibungen von Forschungsvorhaben von verschiedenen Behörden und Instituten, von denen jedoch nur ein kleiner Teil (etwa 20 %) umweltrelevant ist. Dennoch soll lediglich der umweltrelevante Teil in die UFORDAT aufgenommen werden.

Bisher wurden die Texte manuell klassifiziert, um die umweltrelevanten Forschungsvorhaben zu filtern. Dieser Prozess war mit einem enormen manuellem Arbeitsaufwand verbunden, da die Kategorisierung oft Monate in Anspruch nahm. Dadurch war die Aktualität der UFORDAT nicht gewährleistet, und sie konnte ihrem Ziel, der Vermeidung von Doppelforschung, nicht optimal nachkommen.

Das Projektteam von Horváth hat ein sogenanntes Large Language Model (LLM) mithilfe eines Fine-Tuning-Verfahrens weiterentwickelt. LLMs sind KI-Modelle, die auf künstlichen neuronalen Netzen basieren und in der Lage sind, komplexe menschliche Sprache zu verstehen und zu generieren. Ein bekanntes Beispiel sind die GPT-Modelle von OpenAI (ChatGPT). Fine-Tuning ist ein Prozess, bei dem ein bereits vortrainiertes Modell auf eine spezifische Aufgabe oder einen speziellen Datensatz angepasst wird, indem es für eine begrenzte Anzahl von Iterationen mit neuen Daten weiter trainiert wird. Dies ermöglicht es, die allgemeinen Sprachkenntnisse des Modells auf die spezifischen Anforderungen der Zielanwendung zu übertragen. In diesem Fall dienten die bisherigen manuellen Klassifikationen als Trainingsdaten für das Fine-Tuning des LLMs.

Das trainierte Modell konnte nun die Klassifikationsaufgabe in umweltrelevante und nicht-umweltrelevante Forschungsvorhaben durchführen. Bei der Überprüfung einer neuen Datenlieferung wurde eine Genauigkeit von 97,7 % erreicht – ein hervorragendes Ergebnis, insbesondere angesichts der komplexen deutschen Fachsprache. Dies ermöglichte eine vollständige Automatisierung des Klassifikationsprozesses über eine Web-Anwendung (siehe folgende Abbildung).

Prozess-Pipeline nach der Automatisierung durch Machine-Learning — Bild: Horváth

Die Projektbeschreibungen können seitdem direkt in die Datenbank eingespeist werden, wodurch der Prozess anstelle von mehreren Monaten nur noch wenige Stunden in Anspruch nimmt.

Die Automatisierung führt zu einer enormen Arbeitszeitersparnis und gewährleistet die Aktualität der UFORDAT. Somit kann die Datenbank ihrer Hauptaufgabe, der Vermeidung von Doppelforschung, effektiv nachkommen.

Fazit: Gezielter Einsatz von Machine-Learning ermöglicht Effizienzsteigerung

Die Zusammenarbeit zwischen dem Umweltbundesamt (UBA) und Horváth hat gezeigt, dass der gezielte Einsatz von Machine-Learning (ML) Methoden erhebliche Effizienzsteigerungen in Arbeitsprozessen und Forschungsvorhaben ermöglicht. Durch die Identifikation und Umsetzung von konkreten Anwendungsfällen konnten prototypische ML-Modelle entwickelt und implementiert werden, die das Potenzial haben, verschiedene Aspekte der Arbeit des UBA zu optimieren.

Die Automatisierung von Klassifikationsprozessen ist dabei nur ein Beispiel für die vielfältigen Einsatzmöglichkeiten von ML. Die Ergebnisse dieses Projekts verdeutlichen das Potenzial von ML, um den Umweltschutz und die Arbeit des UBA in Deutschland weiter zu stärken und zu optimieren, und unterstreichen die Bedeutung der kontinuierlichen Erforschung und Anwendung solcher Technologien für eine nachhaltige Zukunft.

Lesen Sie auch:

Einsatz von Algorithmen in der taktischen Unternehmensplanung bei Mercedes Benz

Einsatz von Machine-Learning-Technologien im Umweltbundesamt

Das Umweltbundesamt – Deutschlands zentrale Umweltbehörde

Identifikation potenzieller Effizienzhebel

Potenzielle Anwendungsfälle für den Einsatz von Machine Learning

Erhebliche Effizienzsteigerung durch Machine-Learning am Beispiel der Umweltforschungsdatenbank

Fazit: Gezielter Einsatz von Machine-Learning ermöglicht Effizienzsteigerung