Dipl.-Finanzwirt (FH) Nikolaus Zöllner
6.1 Data Profiling (Datenanalyse)
Data Profiling ist eine statistische Analyse und Bewertung von Datensätzen. Vergleichbar mit einem Archäologen werden Daten mit Werkzeugen ausgegraben, sauber freigelegt, betrachtet, kategorisiert und bewertet. Im Gegensatz zum Archäologen, der dafür i. d. R. Handarbeit mit Schaufel, Spachtel und Pinsel leistet, erfolgt die Analyse beim Data Profiling mit weitgehend digitalen und automatisierten Verfahren.
Ziel des Data Profilings ist es, die vorhandenen Daten systematisch auf Fehler, Inkonsistenzen und Mängel zu untersuchen. Das Data Profiling dient jedoch nicht dazu, erkannte Qualitätsprobleme von Daten zu beheben. Dies bleibt den nachfolgenden Schritten vorbehalten. Die Ergebnisse dienen vielmehr zur Beurteilung, wie gut die untersuchten Daten für bestimmte vorgesehene Zwecke nutzbar sind und mit welchem Aufwand und Risiko weitere Aktivitäten verbunden sind. So können Überraschungen oder Verzögerungen bei der Weiterverarbeitung der Daten abgeschätzt werden. Es empfiehlt sich daher, das Data Profiling möglichst früh in der jeweiligen Projektplanung einzusetzen.
Beim grundlegenden Data Profiling erfolgt ein schrittweises Vorgehen in 4 Stufen:
- Daten integrieren
- Daten analysieren
- Ergebnisse präsentieren
- Ergebnisse bewerten
In einem ersten Schritt müssen die Daten für das Profiling aus den originären Datenquellen extrahiert werden. Dies kann über eine programmgestützte Exportfunktion oder Schnittstelle oder notfalls mit den in der Praxis bekannten Befehlen "Kopieren" (STRG-C) und "Einfügen" (STRG-V) erfolgen. Die Extraktion der Daten vor dem Profiling ist empfehlenswert, um die Daten von den Produktivsystemen zu entkoppeln und "stand-alone" für den Profilingprozess zur Verfügung zu haben. Dadurch wird auch unnötige Netzwerklast auf den Quellsystemen vermieden. Im Rahmen der Extraktion können auch nicht benötigte Datenattribute entfernt werden, um den Prozess zu beschleunigen. Aber auch die Trennung von zusammengesetzten Inhalten, wie z. B. bei Namensfeldern (Freitext) in "Vorname" und "Nachname", kann den Prozess optimieren.
Im zweiten Schritt werden die aufbereiteten Daten analysiert. Hierfür kommen verschiedene Methoden und Verfahren zum Einsatz; in den allermeisten Fällen erfolgt dieser Schritt automatisiert und in mehreren Schleifen, ggf. in Kombination mit verschiedenen technischen Verfahren und Tools. Grundsätzlich aber auch – je nach Anforderungen – manuelle Auswertungen denkbar; z. B. die Analyse von Daten mit Filteroperationen und Verformelung mit MS Excel.
In einem dritten Schritt werden die erarbeiteten Ergebnisse aufbereitet und dem Verantwortlichen präsentiert, der sie in einem vierten und letzten Schritt fachlich bewertet. Sofern die vorliegende Analyse unvollständig oder unzureichend ist oder Unklarheiten bestehen, ist der gesamte Prozess in einer oder mehreren Schleifen zu wiederholen.
Data-Profiling Verfahren
Die verschiedenen Data-Profiling-Verfahren lassen sich in 3 Hauptkategorien einteilen:
- Attribut-Analyse
- Datensatz-Analyse
- Tabellen-Analyse
Bei der Attribut-Analyse werden die Werte einer Tabellenspalte (Attribut) und die Eigenschaften dieser Werte ausgewertet.
Beispiel: Die Werte der Tabellenspalte "Kreditorennummer" werden hinsichtlich ihrer Eigenschaften (numerisch, nichtnumerisch, Wertebereich) analysiert.
Im Rahmen der Datensatz-Analyse werden alle Datensätze einer Tabelle auf funktionale Abhängigkeiten untersucht.
Beispiel: In der Tabelle "Debitoren" gibt es zwei Datensätze mit "Müller GmbH" und identischem Erstellungsdatum "02.08.2020".
Mit der Tabellen-Analyse werden alle Beziehungen (referenzielle Abhängigkeiten) zwischen den vorhandenen Tabellen untersucht.
Beispiel: Im ERP-System gibt es in der Tabelle "Kunden" eine Beziehung über die Kundennummer zur Tabelle" Bestellungen".
6.2 Data Cleansing (Datenbereinigung)
Die im Rahmen des Data Profilings identifizierten Datenmängel sind anschließend mittels Data Cleansings durch verschiedene Verfahren zu bereinigen. Sofern die betroffenen Daten zuvor zuverlässig standardisiert wurden, ist die Bereinigung deutlich einfacher durchzuführen. Beispielsweise sollte ein Datumsfeld immer in einem einheitlichen Format vorliegen. Liegt ein Datumswert im Format "TT.MM.JJJJ" und ein anderer im Format "TT.MM.JJ" vor, wird der Prozess des Data Cleansings erschwert. Gleiches gilt für die Normierung von Daten; der Firmenzusatz "eingetragener Kaufmann" sollte nicht in unterschiedlichen Schreibweisen (z. B. "eingetr. Kfm" und "eing. K".) vorliegen, sondern normiert sein (z. B. "e.K.").
Bereinigung nicht normierter Datenmängel
Die Bereinigung von Daten kann im Hinblick auf eindeutige Mängel – gemäß standardisierten Datenqualitätskriterien – systemunterstützt erfolgen. Andere "weiche" Kriterien, wie z. B. die Glaubwürdigkeit von Datensätzen, müssen durch menschliche Prüfeingriffe erfolgen.
Für die Datenbereinigung werden verschiedene Methoden empfohlen, die einzeln oder in Kombination angewendet werden können. Nachfolgend werden diese Methoden beispielhaft erläutert:
6.2.1 Datenentfernung
Bei dieser Methode werden ...