Dr. Angelica M. Schwarz, Dr. Manuel Koch
Mittels einer Data Pipeline gelangen die Daten vom jeweiligen Quellsystem zum jeweiligen Zielsystem. Als Quellsysteme werden gemeinhin die Datenquellen verstanden, aus denen die Primärdaten hervorgehen. Dies können etwa CRM-Systeme (CRM steht für Customer Relationship Management) oder ERP-Systeme (ERP steht für Enterprise Resource Planning) sein. Bei den Zielsystemen handelt es sich in der Praxis oftmals um ein Data Warehouse oder ein Data Lake, auf welche nachfolgend näher einzugehen ist.
Weil Daten in den meisten Fällen aus zahlreichen heterogenen Quellsystemen stammen, weisen diese unterschiedliche Formate auf. Es liegen mithin Rohdaten vor, die zuerst auf einen "gemeinsamen Nenner" gebracht werden müssen, bevor sie einer Analyse überhaupt zugänglich sind. Wann die Transformationsschritte erfolgen, hängt von der konkreten Ausgestaltung der Big Data Architektur ab. Dabei wird oftmals zwischen einer ETL-Pipeline und einer ELT-Pipeline unterschieden. Da der Transformationsprozess innerhalb der Datenwertschöpfungskette eine wichtige Rolle einnimmt (namentlich für die steuerrechtliche Analyse) ist auf diese beiden Datenintegrationsverfahren nachfolgend näher einzugehen.
a) ETL-Pipeline
ETL steht für Extract, Transform und Load. Die 3 Prozessschritte können wie folgt beschrieben werden:
Abb. 3: ETL-Pipeline
- Extraktionsphase: Im Rahmen der Extraktionsphase geht es zunächst darum, die Daten aus den relevanten Quellen zu extrahieren. Dieser Vorgang bedingt, dass die relevanten Datenquellen zunächst von den irrelevanten unterschieden werden. Damit die selektierten Daten überhaupt extrahiert werden können, müssen diese oftmals (zumindest temporär) zwischengespeichert werden. Es erfolgt in diesem Fall eine Überführung der Daten in den Arbeitsbereich (Staging Area), damit diese von dort aus weiterverarbeitet werden können. Die Staging Area hat den Vorteil, dass auf die Rohdaten zurückgegriffen werden kann, sollte ein späterer Vorgang diese beschädigen. Eine Trennung von operativen und analytischen Datenbanksystemen kann aber auch aus steuerrechtlicher Sicht Sinn ergeben, wenn der analytische Bereich einen eigenen Workstream innerhalb des Unternehmens darstellt und damit eine eigene Wertschöpfung betrieben wird.
- Transformationsphase: Im Rahmen der Transformationsphase werden die Rohdaten veredelt. Die Transformation betrifft insb. die Datenstruktur (z.B. Anpassung von Datentypen, Konvertierung, Vereinheitlichung von Zeichenketten oder Datumsangaben, Umrechnung von Masseinheiten, Separierung von Attributwerten, etc.). Auch eine Datenbereinigung kann in diesem Schritt erfolgen (z.B. Korrektur von fehlerhaften, redundanten oder veralteten Werten). Fehlende Daten müssen dabei nicht immer zwingend über eine Datenerhebung behoben werden – es kann z.B. auch eine Interpolation stattfinden.
- Ladephase: Im Rahmen der Ladephase verlassen die Daten den Arbeitsbereich und werden in den Zielspeicher überführt.
Die ETL-Pipeline kann grafisch wie folgt dargestellt werden:
Zielspeicher der ETL-Pipeline ist oftmals ein Data Warehouse, da dieses klar strukturierte Daten benötigt, weshalb der Transformationsprozess in diesem Fall vor dem Ladevorgang erfolgen muss (zum Data Warehouse nachfolgend im Detail).
b) ELT-Pipeline
ELT steht für Extract, Load und Transform. Hier ist die Transformation der Daten der Überführung in den Zielspeicher nachgelagert. Bei der ELT-Pipeline erfolgt die Transformation der Daten somit im Zielspeicher selbst und ein dazwischengeschalteter Verarbeitungsserver ist nicht nötig.
Die ELT-Pipeline kann grafisch wie folgt dargestellt werden:
Abb. 4: ELT-Pipeline
Zielspeicher der ELT-Pipeline ist oftmals ein Data Lake. Die ELT-Pipeline hat den Vorteil, dass die Lade- und Transformationsphasen parallel erfolgen können, was wiederum den Verarbeitungsprozess kürzt. Dies ist relevant, wenn das Unternehmen die Auswertung nahezu in Echtzeit benötigt, um die datenbasierte Entscheidung zu treffen.