Dr. Angelica M. Schwarz, Dr. Manuel Koch
a) Begriff
Der Begriff Data Warehouse beschreibt ein Informationssystem, welches darauf ausgerichtet ist, große Datenmengen für die analytische Weiterverwendung zu verarbeiten und zu verwalten. Genauer gesagt, handelt es sich hierbei um ein System bestehend aus einer oder mehreren Datenbanken, welche Daten aus verschiedenen Quellen integriert und diese dem Anwender zu Auswertungszwecken zur Verfügung stellt.
b) Einsatzgebiete
Wie oben bereits erwähnt, kommt das Data Warehouse regelmäßig dann zur Anwendung, wenn strukturierte Daten zur weiteren Verarbeitung erfasst werden. Strukturierte Daten weisen ein vorgegebenes Format auf (z.B. Einteilung in das Schema Name, Vorname, Adresse und Geburtsdatum). Ein Data Warehouse ist somit für deskriptive (was ist passiert) und diagnostische (warum ist etwas passiert) Analysen geeignet.
c) Funktionsweise
Weil das Data Warehouse grundsätzlich auf strukturierte Daten ausgerichtet ist, wird in der Regel eine ETL-Pipeline als Komponente der Big Data Architektur verwendet. Mitsamt dem ETL-Prozess deckt das Data Warehouse die gesamte Datenwertschöpfungskette (vgl. Abb. 2: Vereinfachte und verallgemeinerte Form der Datenwertschöpfungskette) ab:
Abb. 5: Mögliche Modellierung eines Data Warehouse Systems
Weil es bei Big Data um große Datenmengen geht, stellt sich regelmäßig das Problem, dass die Rechensysteme im Rahmen des Datenverarbeitungsprozesses an ihre Grenzen stoßen können. Um dennoch die Transformation, Modellierung und Analyse der Daten in einer zeitlich vertretbaren Zeit ausführen zu können, hat sich das von Google patentierte Programmiermodell Map Reduce etabliert, welches eine Lastverteilung der Daten auf verschiedene Rechner vorsieht. Das Map Reduce besteht im Wesentlichen aus den Phasen Map und Reduce.
Map Reduce
Ein Suchmaschinenanbieter verfügt über eine große Menge an Textdateien. Damit sich die Volltextsuche effizient gestaltet, muss der Anbieter idealerweise wissen, welches die relevanten Stichworte in den Textdateien sind. Die Relevanz wird oftmals von der Häufigkeit bestimmt, weshalb der Anbieter wiederum wissen muss, wie oft welche Wörter in den Textdateien vorkommen. Im Rahmen der Map-Phase werden die entgegengenommenen Daten durch einen Algorithmus in sogenannte Schlüssel-Wert-Paare aufgeteilt. Als Schlüssel dient das entsprechende Wort und der Wert wird durch die Anzahl des Vorkommens bestimmt. In der Reduce-Phase werden die Werte pro Schlüssel zusammengefasst. Dabei werden lediglich die Werte, welche am besten passen (hier also die Häufigkeit), behalten und die übrigen verworfen. Auf diese Weise lassen sich datenvolumenmäßig kleinere Endergebnisse herstellen, die von einer Relevanz geprägt sind.
Das Map Reduce wird üblicherweise auf der Plattform Hadoop ausgeführt – es handelt sich hierbei um ein Datenverarbeitungssystem, das entsprechende Algorithmen zur Verfügung stellt. Map Reduce beschreibt somit ein abstraktes Konzept und Hadoop ist die konkrete Implementierung.
Obschon das Map Reduce die Komplexität der Dateninformationen reduziert, können immer noch hoch komplexe Datenmengen vorliegen. Für eine weitere Analyse braucht es deshalb oftmals weitergehende Auswertungswerkzeuge. Gemäß Martin Szugat hat sich für deskriptive Analysen in der Praxis der sog. OLAP Cube etabliert. Der Begriff "OLAP" steht für Online Analytical Processing und bezeichnet eine besondere Art der Datenspeicherung. Mit OLAP lassen sich Daten mehrdimensional analysieren und visualisieren (anders als z.B. in flachen Tabellen). Die Daten werden somit in verschiedenen Dimensionen abgelegt, wobei den verschiedenen Achsen verschiedene Messwerte zugeordnet werden:
Abb. 6: OLAP Cube
Eine OLAP-basierte Auswertung ermöglicht es dem Anwender, die dem Unternehmen zur Verfügung stehenden Daten aus verschiedenen Blickwinkeln zu betrachten. So kann z.B. nicht nur analysiert werden, welche Produktgruppe den größten Umsatz erzielt hat, sondern auch, in welchen Regionen und in welchen Zeitabschnitten dies geschah.
Die Visualisierung der Ergebnisse erfolgt sodann automatisiert und ermöglicht eine datenbasierte Entscheidung.