Dr. Angelica M. Schwarz, Dr. Manuel Koch
2.2.1 Wechselwirkung zwischen Daten und Analytik
Der Begriff "Big Data" weckt bei vielen Personen die euphorische Vorstellung, es handle sich hierbei um den Schlüssel zum garantierten Erfolg. Viele sehen in Big Data Big Business. Dem ist aber nicht immer so. Obschon viele Unternehmen an einem Datenüberfluss leiden, sind nur etwa 20 % der Daten- und KI-Projekte erfolgreich. Woran liegt das?
Die Antwort liegt oftmals in der fehlenden Datenstrategie. Dabei kommt der Wechselwirkung zwischen Daten und Analytik große Bedeutung zu. Um es in den Worten von Martin Szugat, Co-Geschäftsführer von Datentreiber, zu beschreiben: "Daten ohne Analytik sind wert-, Analytik ohne Daten nutzlos." Ausgehend von den Unternehmenszielen (warum machen wir das?), konzentriert sich die Datenstrategie in einem ersten Schritt auf die kritischen Anwendungsfälle (wie machen wir das?). Erst wenn der Weg zum Ziel feststeht, kann die Was-Frage beantwortet werden: Was für Daten und Analytik benötigen wir?
Aus der Wechselwirkung zwischen Daten und Analytik ergibt sich gemäß Szugat das Datenprodukt. Als Datenprodukt wird die Software-Anwendung bezeichnet, die mit Hilfe von Analytik aus den Daten eine nutzbare und nützliche Lösung für das Unternehmen machen.
Das Designen der Datenstrategie ist Teamarbeit. Gemäß Martin Szugat braucht es Domänen- und Datenexperten, IT- und BI-Experten, Datenschützer und -verwerter, Datenproduzenten und -konsumenten, Anwender und Umsetzer sowie weitere Mitwirkende. Dass Berater in den Bereichen Steuern und Wirtschaft auch zu diesen "weiteren Mitwirkenden" gehören können, zeigt unter anderem dieser Beitrag.
2.2.2 Datenqualität
"A lack of data often leads to more cautious decision making – at least you know you don't have all the facts. With bad data, it is easy to have false confidence in wrong decisions." Dieses Zitat beschreibt zutreffend, dass nicht jede datenbasierte Entscheidung zum Erfolg führt. Damit aus Big Data nicht Bad Data wird, bildet die individuelle Datenstrategie (als Teil der Unternehmensstrategie) Voraussetzung für eine hohe Datenqualität. Gemäß Szugat umfassen die Datenqualitätsindikatoren folgende Dimensionen:
- Vollständigkeit
- Repräsentativität
- Korrektheit
- Aktualität
- Redundanz
- Konsistenz
- Integrität
KI-Anwendungen, die mit Daten gefüttert werden, können nur so gut wie ihre Trainingsdaten sein. Hierfür ist ein Datenqualitätsmanagement erforderlich, wobei dieses in einem datengetriebenen Unternehmen selbst datengetrieben ist. Die Datenqualitätsindikatoren sind idealerweise in einem Datenkatalog dokumentiert und protokolliert, sodass die gewünschten Daten leichter zu finden sind und mit anderen Systemen verknüpft werden können.