Marcel Graf, Holger Müller
4.1 Lebenszyklus von Data-Mining-Projekten
Studien zeigen auf, dass nur ein Viertel aller Data-Mining-Projekte erfolgreich sind. Eine unzureichende Datenlage sowie mangelnde Qualifikation der Mitarbeitenden sind jedoch nicht allein dafür verantwortlich. Oftmals sind auch mangelndes Projektmanagement und organisatorische Probleme in den Unternehmen ursächlich für das Scheitern. Um diesen Problemen entgegenzuwirken, ist es sinnvoll, sich an einem etablierten und standardisierten Prozess für die Durchführung von Data-Mining-Projekten zu orientieren.
Der Cross Industry Standard Process for Data Mining (CRISP-DM) beschreibt in sechs Phasen den Lebenszyklus von Data-Mining-Projekten (s. Abb. 1) und wird als ein Leitfaden verstanden, welcher bei der Planung, Organisation und Umsetzung unterstützt. Der Prozess wird im Wesentlichen durch einen Data Scientist abgearbeitet, jedoch ist in verschiedenen Schritten eine Zusammenarbeit der Fachabteilung mit einem Data Scientist essenziell.
Abb. 1: Schematische Darstellung des CRISP-DM
4.2 Prozessphasen im Detail
1. Aufgabenverständnis
Ausgangspunkt des CRISP-DM ist das Aufgabenverständnis innerhalb der jeweiligen Fachabteilung, die zu Beginn die Erwartungshaltung sowie eine grobe Aufgabenstellung für den Data Scientist skizziert, die sukzessiv verfeinert und in datenanalytische Teilaufgaben zerlegt werden kann. Dabei ist es seitens der Fachabteilung nicht zwingend erforderlich, die doch recht hohe Anzahl an Analyseverfahren im Detail zu kennen, aber die Zielstellungen der wesentlichen Verfahrensgruppen sollten im Wesentlichen bekannt sein.
2. Datenverständnis
Für das Datenverständnis sind die Daten verschiedener Speicherorte, Dateien unterschiedlichen Formats und verschiedene Dokumentarten zu sammeln und zu verstehen. Dabei ist eine Rückkopplung in zweifacher Hinsicht mit dem Aufgabenverständnis zwingend. Zum einen ist die Frage zu klären, welche Rohdaten zur Verfügung stehen, was wiederum entweder zu einer Eingrenzung oder sogar zu einer Erweiterung der Aufgabenstellung führen kann. Zum anderen unterscheiden sich die Verfahren hinsichtlich der Ergebnisse und der benötigten unterschiedlichen Datenstrukturen, was wiederum die Definition der Teilaufgaben beeinflusst.
3. Datenaufbereitung
In der Datenaufbereitung, die einen oft unterschätzten beträchtlichen Teil der Projektzeit in Anspruch nimmt, entstehen aus Rohdaten strukturierte und vollständige Daten mit dem Ziel, den Informationsgehalt zu verdichten. Dabei sind Daten für die spätere Analyse vorzubereiten und nachfolgend zu verknüpfen.
4. Modellbildung
Anschließend wird das Analysemodell entwickelt. Auch hier ist zu erwarten, dass es zu Rückkopplungsschleifen kommt, da im Rahmen der Modellbildung häufig neue Erkenntnisse über die Daten (z. B. in Datensätzen nicht eindeutig zuordenbare oder fehlende Werte) gewonnen werden, die wiederum in die weiteren Aufbereitungsschritte einfließen.
5. Ergebnisqualität beurteilen
Nach Fertigstellung des Analysemodells muss die Ergebnisqualität beurteilt werden. Diesem Schritt kommt eine sehr hohe Bedeutung zu, da beim Data Mining der Analyseprozess die Validität sicherstellen muss, da sich diese nicht aus der Datenqualität ableitet. An diesem Punkt ist wieder die Zusammenarbeit zwischen Fachabteilung und Data Scientist notwendig, da die Qualität meist nur im konkreten Anwendungskontext bewertet werden kann.
6. Implementierung
Funktionierende Modelle werden danach in die Anwendung überführt, d. h., entweder werden die Ergebnisse für datengetriebene Entscheidung genutzt oder die Modelle werden zur dauerhaften Nutzung implementiert. Während der Implementierung ergeben sich ggf. neue Fragen, wodurch der Prozess von neuem starten kann.