Dipl.-Finanzwirt (FH) Nikolaus Zöllner
Die im Rahmen des Data Profilings identifizierten Datenmängel sind anschließend mittels Data Cleansings durch verschiedene Verfahren zu bereinigen. Sofern die betroffenen Daten zuvor zuverlässig standardisiert wurden, ist die Bereinigung deutlich einfacher durchzuführen. Beispielsweise sollte ein Datumsfeld immer in einem einheitlichen Format vorliegen. Liegt ein Datumswert im Format "TT.MM.JJJJ" und ein anderer im Format "TT.MM.JJ" vor, wird der Prozess des Data Cleansings erschwert. Gleiches gilt für die Normierung von Daten; der Firmenzusatz "eingetragener Kaufmann" sollte nicht in unterschiedlichen Schreibweisen (z. B. "eingetr. Kfm" und "eing. K".) vorliegen, sondern normiert sein (z. B. "e.K.").
Bereinigung nicht normierter Datenmängel
Die Bereinigung von Daten kann im Hinblick auf eindeutige Mängel – gemäß standardisierten Datenqualitätskriterien – systemunterstützt erfolgen. Andere "weiche" Kriterien, wie z. B. die Glaubwürdigkeit von Datensätzen, müssen durch menschliche Prüfeingriffe erfolgen.
Für die Datenbereinigung werden verschiedene Methoden empfohlen, die einzeln oder in Kombination angewendet werden können. Nachfolgend werden diese Methoden beispielhaft erläutert:
6.2.1 Datenentfernung
Bei dieser Methode werden fehlerhaft identifizierte Datensätze vollständig aus dem Bestand entfernt und somit nicht weiterverarbeitet. Diese Methode ist anzuwenden, wenn die Daten nicht oder nur mit sehr hohem manuellem Aufwand korrigiert werden können. Die nicht entfernten, korrekten Datensätze werden jedoch weiterverarbeitet.
Entfernung eines fehlerhaften Kreditoren-Datensatzes
Nach erfolgreichem Data Profiling wurde in der Tabelle "Kreditoren" ein Datensatz identifiziert, der keine Werte in den Feldern "Kreditorennummer"und "Kreditorenname" und keine Buchungsvorgänge enthält. Der Datensatz muss nicht korrigiert werden und wird bei der Datenbereinigung gelöscht.
6.2.2 Datenersetzung
Eine weitere Methode ist das Ersetzen fehlerhafter oder fehlender Daten durch Daten aus alternativen Quellen (Referenzdatenbestände). Dies setzt voraus, dass die für das Ersetzen verwendete Datenquelle zuverlässig ist; optimalerweise hat sie erfolgreich einen vollständigen Datenprüfprozess durchlaufen und kann somit bedenkenlos verwendet werden. Im Gegensatz zur Methode "Entfernen fehlerhafter Daten" kann hier eine Korrektur vorgenommen und der Datensatz gerettet werden.
Ersetzen des Debitorennamens
Die Analyse der Tabelle "Debitoren" hat ergeben, dass ein Datensatz zwar eine Debitorennummer, aber keinen Debitorennamen enthält; Adressdaten sind vorhanden und stimmig. Vermutlich wurde der Debitorenname versehentlich bei einer Stammdatenanpassung entfernt.
Mithilfe eines Referenzdatenbestands kann über die eindeutige Debitorennummer der Debitorenname rekonstruiert, mit den Adressdaten abgeglichen und in den fehlenden Datensatz eingefügt werden.
6.2.3 Datenableitung
In einigen Fällen können fehlerhafte oder fehlende Daten durch Ableitung aus anderen Daten korrigiert werden. Dies erfordert i. d. R. einen manuellen Eingriff, der nur in Ausnahmefällen automatisiert werden kann.
Ableitung des Namens aus dem fehlerhaften Vornamen
Bei einer Datenanalyse wurde festgestellt, dass im Datenfeld "Name" eines Datensatzes kein Eintrag vorhanden ist; im zugehörigen Datenfeld "Vorname" jedoch ein längerer Wert vorhanden ist. Da der Eintrag "Gottfried Müller" lautet, kann der fehlende Eintrag im Datenfeld "Name" durch Ableitung des (falschen) Wertes im Feld "Vorname" korrigiert werden.
6.2.4 Standardwerte
In anderen Fällen können fehlende Werte durch Standardwerte ersetzen werden. Voraussetzung ist, dass für den fehlenden Wert ein eindeutiger, vordefinierter Wert (sog. "Default-Wert") zur Verfügung steht, dessen Verwendung die Datenqualität des betreffenden Datensatzes verbessert oder zumindest nicht "verschlimmbessert".
Standard-Wert für internen Ansprechpartner
In den Debitorenstammdaten eines Unternehmens ist neben den Daten zum Debitor jeweils ein interner Ansprechpartner aus dem Kreis der Mitarbeiter der Debitorenbuchhaltung einzutragen. Sofern im Rahmen des Data Profilings bei einem Debitorenstammsatz ein fehlender Wert im Datenfeld "Ansprechpartner" festgestellt wurde, ist im Rahmen des Data Cleansings – entsprechend den internen Vorgaben – der Name des Gruppenleiters der Debitorenbuchhaltung als Default-Wert einzutragen.
6.2.5 Duplikatsentfernung
Zur Datenbereinigung gehört auch die Entfernung von Duplikaten (doppelte Datensätze). Duplikate stellen redundante Daten dar und müssen zur Optimierung des Datenbestandes und zur Fehlervermeidung unbedingt bereinigt werden. Im Rahmen der Bereinigung (Löschung des redundanten Datensatzes) ist wiederum zu prüfen und sicherzustellen, dass der verbleibende Datensatz in allen Belangen korrekte Werte enthält. Das Vorhandensein von Duplikaten birgt die Gefahr, dass laufende Datenanpassungen während der Existenz der Duplikate in verschiedenen Datensätzen vorgenommen werden. Somit gibt es nicht ein richtiges und ein falsches Duplikat; es handelt sich dann um s...