Prof. Dr. Ulrike Baumöl, Dipl.-Kfm. Philipp-Dennis Berlitz
Big Data kann mit herkömmlicher Technik oft nicht oder nur unzureichend analysiert werden. Konventionelle Verfahren und Architekturen wurden oftmals schlicht nicht dazu entwickelt, mit sehr großen Datenmengen und vielfältigen Datenformaten umzugehen oder Daten in hoher Geschwindigkeit zu verarbeiten. Diese Anforderungen rückten erst später in den Vordergrund. Zur Big Data-Analyse muss also unter Umständen neue Technik eingesetzt werden, die den gestiegenen Anforderungen gerecht werden kann. Im Folgenden soll derartige Technik näher betrachtet werden.
2.2.1 Relationale Datenbankmanagementsysteme
Volume ja, Variety nein
Um Big Data-Analysen durchzuführen, ist es möglich, mehrere parallel betriebene relationale Datenbankmanagementsysteme (RDBMS) einzusetzen. Ein RDBMS ist keine neue, speziell auf Big Data zugeschnittene Technik, allerdings erlaubt der Parallelbetrieb, verteilt auf viele verschiedene Computer, mit großen Datenmengen (Volume) umzugehen. Der Vorteil dieser Technik liegt vor allem in der schnellen Verarbeitung von großen Datenmengen. Für ihren Einsatz sind keine teuren Trainingsmaßnahmen und Migrationsprojekte nötig, da auf konventionelle, möglicherweise sogar bereits vorhandene, Technik zurückgegriffen wird. Parallel betriebene RDBMS stoßen jedoch an ihre Grenzen, wenn Daten von unterschiedlicher Beschaffenheit (Variety) verarbeitet werden sollen. Die Notwendigkeit, solche Daten sehr häufig verarbeiten zu müssen (Velocity), intensiviert das Problem zusätzlich, da das Laden der Daten in das System viel Zeit beansprucht und somit einen Engpass darstellt.
2.2.2 MapReduce-Ansatz
Verarbeitung von großen Datenmengen mit unterschiedlicher Struktur
Der MapReduce-Ansatz wurde speziell für die Verarbeitung von Big Data entwickelt und wird von vielen Unternehmen verwendet. Er ermöglicht die schnelle Verarbeitung von sehr großen Datenmengen. Erreicht wird dies durch die Zerlegung und Aufteilung der Daten in kleinere Pakete, welche dann parallel von mehreren Computersystemen verarbeitet werden können. Der MapReduce-Ansatz zeigt seine Stärke in der Verarbeitung von großen Datenmengen mit sehr unterschiedlicher Struktur (Variety). Derartige Daten können z. B. auf Social Media-Plattformen gefunden werden, weshalb MapReduce für Analysen in diesem Umfeld gut geeignet ist. Im Vergleich zu RDBMS zeigen sich aber auch die Schwächen des MapReduce-Ansatzes. Die Durchführung von einfachen Abfragen (z. B. "SELECT-Statements") benötigen in einem MapReduce-System deutlich mehr Zeit als in konventionellen RDBMS. Gleiches gilt für die Definition der Abfragen selbst.
2.2.3 In-Memory Technik
Eine weitere Möglichkeit zur Big Data-Verarbeitung ist der Einsatz von In-Memory-Technik, wie z. B. In-Memory-Datenbanken. Herkömmliche Datenbanken nutzen Festplatten, um Daten zu speichern. Dies hat den Nachteil, dass Abfragen aufgrund der spezifischen Auslesezeit von Festplatten im Millisekundenbereich liegen und damit relativ viel Zeit beanspruchen. Aktuelle Entwicklungen, wie z. B. Mehrkern-CPUs und neue "Random Access Memory"-Architekturen ermöglichen die Speicherung und Verarbeitung von großen Datenmengen direkt auf dem Hauptspeicher (= In-Memory). Die Zugriffszeiten von In-Memory-Datenbankabfragen liegen im Nanosekundenbereich und sind damit deutlich kürzer als konventionelle festplattenbasierte Datenbankabfragen. Der dadurch generierte Leistungsgewinn ermöglicht es, Datenbanken neu zu gestalten, so sind z. B. "Indices" und "Views", die in herkömmlichen Datenbanken aus Leistungsgründen benötigt werden, nicht mehr notwendig.
Analysen direkt in der Datenbank
Weiterhin ermöglicht die hohe Verarbeitungsgeschwindigkeit von In-Memory-Datenbanken, Analysen direkt in der Datenbank durchzuführen. Dies ist mit konventionellen Datenbanken in der Regel nicht möglich. Hier müssen die Daten zuerst aus der Datenbank extrahiert und eine Zwischenspeicherung durchgeführt werden. Die In-Memory-Technik weist allerdings auch Nachteile auf. Die wohl gravierendste Schwachstelle von In-Memory-Datenbanken liegt in der fehlenden Daten-Persistenz, also im Unvermögen, Daten über einen längeren Zeitraum bereitzuhalten. Denn Daten, welche sich auf dem Hauptspeicher befinden, gehen verloren, sobald seine Energieversorgung unterbrochen wird. Dies kann insbesondere bei Systemabstürzen zum Datenverlust führen. Eine Möglichkeit, diesem Problem zu begegnen, sind hybride Datenbanken, welche den Hauptspeicher, aber auch Festplatten zur Speicherung von Daten nutzen.
Die vorgestellten Beispiele zeigen, dass es genügend Möglichkeiten gibt, um mit Big Data zu arbeiten, unabhängig davon, ob es sich um sehr viele Daten, sehr unterschiedliche Daten oder Daten, die in hoher Frequenz anfallen, handelt. Die Technik stellt also nicht den limitierenden Faktor dar, der zwischen Big Data, auf der einen Seite, und wirtschaftlichem Erfolg, auf der anderen Seite, steht.