Dipl.-Kfm. Michael Kappes, Thomas Johanndeiter
Im Zuge der Digitalisierung nimmt die Datenarchitektur zunehmend eine zentrale Rolle ein. Während bei der Entwicklung von Datenarchitekturen über viele Jahre das Data Warehouse (DWH) den Kern bildete, sind zuletzt weitere Konzepte hinzugekommen, die dabei helfen, Daten effizient zu organisieren, zu verwalten und zu nutzen, wie in Abb. 2 dargestellt:
1. Data Warehouse und Data Lakehouse bieten strukturierte Umgebungen für die Speicherung und Analyse von Daten.
Ein Data Warehouse ist eine zentrale Datenbank, die Daten aus verschiedenen Quellen sammelt, bereinigt und speichert. Damit bietet es eine strukturierte und konsistente Sicht auf die Unternehmensdaten. Ein Data Lakehouse erweitert das Data Warehouse und ermöglicht es, auch unstrukturierte Daten in einem zentralen Repository zu speichern und für die Verwendung in Echtzeit zur Verfügung zu stellen.
2. Data Hub ermöglicht die zentrale Verwaltung und Bereitstellung von Daten für verschiedene Anwendungen.
Ein Data Hub ist eine Plattform, die als zentrale Schnittstelle für Daten fungiert. Dabei werden die Daten in ihrer ursprünglichen Form und Struktur gespeichert und für verschiedene Anwendungen zugänglich gemacht. Eine Datenbereinigung und Datenmodellierung wie bei einem Data Warehouse oder Data Lakehouse findet hier nicht statt.
3. Data Mesh verteilt die Verantwortung für Daten auf verschiedene Teams, was die Skalierbarkeit und Flexibilität erhöht.
Im Data Mesh-Ansatz werden auf einer gemeinsamen Dateninfrastruktur die Datenanwendungen, sog. "Data Products", in kleinere, autonome Domänen aufgeteilt. Jede Domäne ist für ihre eigenen Daten verantwortlich und bietet diese über standardisierte Schnittstellen anderen Domänen an. Data Mesh fördert die Eigenverantwortung der Teams und erleichtert die Skalierung, erfordert aber auch eine solide Governance und klare Kommunikation.
4 . Data Fabric integriert und vereinheitlicht Daten über verschiedene Systeme hinweg.
Eine Data Fabric ist eine hochvernetzte Datenarchitektur, die es ermöglicht, Daten nahtlos über verschiedene Standorte und Plattformen hinweg zu verbinden und zu integrieren. Im Gegensatz zu einem zentralisierten Ansatz wie einem Data Warehouse oder einem Data Hub ist eine Data Fabric eher verteilt. Dadurch wird eine einheitliche Sicht auf die Daten ermöglicht, unabhängig von ihrer physischen Speicherung oder ihrer Herkunft. Eine Data Fabric versucht, insbesondere die Herausforderungen für Data Governance und domänenübergreifende Integration im Data Mesh zu lösen.
Abb. 2: Grundsätzliche Konzepte für Datenarchitekturen
Auch die Grundsatz-Entscheidung für die zukünftige Form der Datenarchitektur sollte der Entscheidung für konkrete Anwendungen für Planung und Forecasting, aber auch Reporting und Analyse vorausgehen.