Dipl.-Finanzwirt (FH) Nikolaus Zöllner
Data Profiling ist eine statistische Analyse und Bewertung von Datensätzen. Vergleichbar mit einem Archäologen werden Daten mit Werkzeugen ausgegraben, sauber freigelegt, betrachtet, kategorisiert und bewertet. Im Gegensatz zum Archäologen, der dafür i. d. R. Handarbeit mit Schaufel, Spachtel und Pinsel leistet, erfolgt die Analyse beim Data Profiling mit weitgehend digitalen und automatisierten Verfahren.
Ziel des Data Profilings ist es, die vorhandenen Daten systematisch auf Fehler, Inkonsistenzen und Mängel zu untersuchen. Das Data Profiling dient jedoch nicht dazu, erkannte Qualitätsprobleme von Daten zu beheben. Dies bleibt den nachfolgenden Schritten vorbehalten. Die Ergebnisse dienen vielmehr zur Beurteilung, wie gut die untersuchten Daten für bestimmte vorgesehene Zwecke nutzbar sind und mit welchem Aufwand und Risiko weitere Aktivitäten verbunden sind. So können Überraschungen oder Verzögerungen bei der Weiterverarbeitung der Daten abgeschätzt werden. Es empfiehlt sich daher, das Data Profiling möglichst früh in der jeweiligen Projektplanung einzusetzen.
Beim grundlegenden Data Profiling erfolgt ein schrittweises Vorgehen in 4 Stufen:
- Daten integrieren
- Daten analysieren
- Ergebnisse präsentieren
- Ergebnisse bewerten
In einem ersten Schritt müssen die Daten für das Profiling aus den originären Datenquellen extrahiert werden. Dies kann über eine programmgestützte Exportfunktion oder Schnittstelle oder notfalls mit den in der Praxis bekannten Befehlen "Kopieren" (STRG-C) und "Einfügen" (STRG-V) erfolgen. Die Extraktion der Daten vor dem Profiling ist empfehlenswert, um die Daten von den Produktivsystemen zu entkoppeln und "stand-alone" für den Profilingprozess zur Verfügung zu haben. Dadurch wird auch unnötige Netzwerklast auf den Quellsystemen vermieden. Im Rahmen der Extraktion können auch nicht benötigte Datenattribute entfernt werden, um den Prozess zu beschleunigen. Aber auch die Trennung von zusammengesetzten Inhalten, wie z. B. bei Namensfeldern (Freitext) in "Vorname" und "Nachname", kann den Prozess optimieren.
Im zweiten Schritt werden die aufbereiteten Daten analysiert. Hierfür kommen verschiedene Methoden und Verfahren zum Einsatz; in den allermeisten Fällen erfolgt dieser Schritt automatisiert und in mehreren Schleifen, ggf. in Kombination mit verschiedenen technischen Verfahren und Tools. Grundsätzlich aber auch – je nach Anforderungen – manuelle Auswertungen denkbar; z. B. die Analyse von Daten mit Filteroperationen und Verformelung mit MS Excel.
In einem dritten Schritt werden die erarbeiteten Ergebnisse aufbereitet und dem Verantwortlichen präsentiert, der sie in einem vierten und letzten Schritt fachlich bewertet. Sofern die vorliegende Analyse unvollständig oder unzureichend ist oder Unklarheiten bestehen, ist der gesamte Prozess in einer oder mehreren Schleifen zu wiederholen.
Data-Profiling Verfahren
Die verschiedenen Data-Profiling-Verfahren lassen sich in 3 Hauptkategorien einteilen:
- Attribut-Analyse
- Datensatz-Analyse
- Tabellen-Analyse
Bei der Attribut-Analyse werden die Werte einer Tabellenspalte (Attribut) und die Eigenschaften dieser Werte ausgewertet.
Beispiel: Die Werte der Tabellenspalte "Kreditorennummer" werden hinsichtlich ihrer Eigenschaften (numerisch, nichtnumerisch, Wertebereich) analysiert.
Im Rahmen der Datensatz-Analyse werden alle Datensätze einer Tabelle auf funktionale Abhängigkeiten untersucht.
Beispiel: In der Tabelle "Debitoren" gibt es zwei Datensätze mit "Müller GmbH" und identischem Erstellungsdatum "02.08.2020".
Mit der Tabellen-Analyse werden alle Beziehungen (referenzielle Abhängigkeiten) zwischen den vorhandenen Tabellen untersucht.
Beispiel: Im ERP-System gibt es in der Tabelle "Kunden" eine Beziehung über die Kundennummer zur Tabelle" Bestellungen".