Dr. Angelica M. Schwarz, Dr. Manuel Koch
Der Datenwertschöpfung liegt die Prämisse zugrunde, dass mittels den richtigen Daten und dem richtigen Analyseverfahren ein monetärer Mehrwert für das Unternehmen entstehen kann. Zwischen der Erhebung von Daten und der datenbasierten Entscheidung existiert oftmals ein aufwendiger und komplexer Verarbeitungsprozess, ohne diesen die Gewinnung von neuen Erkenntnissen gar nicht möglich ist. Wie im Bereich der Öl-Förderung müssen Rohdaten zunächst veredelt werden, ansonsten diese nicht verwertbar sind. Nicht zuletzt deshalb werden Informationen als das Öl des 21. Jahrhunderts bezeichnet und die Auswertung ist quasi der Verbrennungsmotor.
Die Datenwertschöpfungskette kann gemäß Szugat vereinfacht und verallgemeinert wie folgt dargestellt werden:
Abb. 2: Vereinfachte und verallgemeinerte Form der Datenwertschöpfungskette
Das Verständnis über den Wertschöpfungsprozess ist für Steuerberater deshalb wichtig, weil insbesondere die Transfer Pricing Analyse die Aspekte der wertschöpfenden Aktivitäten, deren Bedeutung für das gesamte Geschäftsmodell des Unternehmens sowie die Beiträge von Legaleinheiten in unterschiedlichen Jurisdiktionen zur Datenwertschöpfungskette miteinbeziehen muss. Kommt es zu konzerninternen Transaktionen, welche z.B. das Zurverfügungstellen von Daten zum Gegenstand haben, stellt sich neben der Frage der Vergütung des Datenlieferanten auch oftmals die Frage, wie solche Einkünfte im Sinne der anwendbaren Doppelbesteuerungsabkommen zu qualifizieren sind. Hierbei ist in der Praxis beobachtbar, dass solche Verträge oftmals gerne gemeinhin als "Lizenzverträge" betitelt werden. Dass aber Lizenzeinnahmen unter diversen Doppelbesteuerungsabkommen mit einer Steuer des Quellenstaats belastet sein können, darüber sind sich viele Unternehmen nicht bewusst. Ohnehin stellt sich die Frage, ob die Bezeichnung als Lizenzvertrag in vielen Fällen zivilrechtlich überhaupt korrekt ist.
2.5.4.1 Data Pipeline
Mittels einer Data Pipeline gelangen die Daten vom jeweiligen Quellsystem zum jeweiligen Zielsystem. Als Quellsysteme werden gemeinhin die Datenquellen verstanden, aus denen die Primärdaten hervorgehen. Dies können etwa CRM-Systeme (CRM steht für Customer Relationship Management) oder ERP-Systeme (ERP steht für Enterprise Resource Planning) sein. Bei den Zielsystemen handelt es sich in der Praxis oftmals um ein Data Warehouse oder ein Data Lake, auf welche nachfolgend näher einzugehen ist.
Weil Daten in den meisten Fällen aus zahlreichen heterogenen Quellsystemen stammen, weisen diese unterschiedliche Formate auf. Es liegen mithin Rohdaten vor, die zuerst auf einen "gemeinsamen Nenner" gebracht werden müssen, bevor sie einer Analyse überhaupt zugänglich sind. Wann die Transformationsschritte erfolgen, hängt von der konkreten Ausgestaltung der Big Data Architektur ab. Dabei wird oftmals zwischen einer ETL-Pipeline und einer ELT-Pipeline unterschieden. Da der Transformationsprozess innerhalb der Datenwertschöpfungskette eine wichtige Rolle einnimmt (namentlich für die steuerrechtliche Analyse) ist auf diese beiden Datenintegrationsverfahren nachfolgend näher einzugehen.
a) ETL-Pipeline
ETL steht für Extract, Transform und Load. Die 3 Prozessschritte können wie folgt beschrieben werden:
Abb. 3: ETL-Pipeline
- Extraktionsphase: Im Rahmen der Extraktionsphase geht es zunächst darum, die Daten aus den relevanten Quellen zu extrahieren. Dieser Vorgang bedingt, dass die relevanten Datenquellen zunächst von den irrelevanten unterschieden werden. Damit die selektierten Daten überhaupt extrahiert werden können, müssen diese oftmals (zumindest temporär) zwischengespeichert werden. Es erfolgt in diesem Fall eine Überführung der Daten in den Arbeitsbereich (Staging Area), damit diese von dort aus weiterverarbeitet werden können. Die Staging Area hat den Vorteil, dass auf die Rohdaten zurückgegriffen werden kann, sollte ein späterer Vorgang diese beschädigen. Eine Trennung von operativen und analytischen Datenbanksystemen kann aber auch aus steuerrechtlicher Sicht Sinn ergeben, wenn der analytische Bereich einen eigenen Workstream innerhalb des Unternehmens darstellt und damit eine eigene Wertschöpfung betrieben wird.
- Transformationsphase: Im Rahmen der Transformationsphase werden die Rohdaten veredelt. Die Transformation betrifft insb. die Datenstruktur (z.B. Anpassung von Datentypen, Konvertierung, Vereinheitlichung von Zeichenketten oder Datumsangaben, Umrechnung von Masseinheiten, Separierung von Attributwerten, etc.). Auch eine Datenbereinigung kann in diesem Schritt erfolgen (z.B. Korrektur von fehlerhaften, redundan...