Prof. Dr. Ulrike Baumöl, Dipl.-Kfm. Philipp-Dennis Berlitz
Eine weitere Möglichkeit zur Big Data-Verarbeitung ist der Einsatz von In-Memory-Technik, wie z. B. In-Memory-Datenbanken. Herkömmliche Datenbanken nutzen Festplatten, um Daten zu speichern. Dies hat den Nachteil, dass Abfragen aufgrund der spezifischen Auslesezeit von Festplatten im Millisekundenbereich liegen und damit relativ viel Zeit beanspruchen. Aktuelle Entwicklungen, wie z. B. Mehrkern-CPUs und neue "Random Access Memory"-Architekturen ermöglichen die Speicherung und Verarbeitung von großen Datenmengen direkt auf dem Hauptspeicher (= In-Memory). Die Zugriffszeiten von In-Memory-Datenbankabfragen liegen im Nanosekundenbereich und sind damit deutlich kürzer als konventionelle festplattenbasierte Datenbankabfragen. Der dadurch generierte Leistungsgewinn ermöglicht es, Datenbanken neu zu gestalten, so sind z. B. "Indices" und "Views", die in herkömmlichen Datenbanken aus Leistungsgründen benötigt werden, nicht mehr notwendig.
Analysen direkt in der Datenbank
Weiterhin ermöglicht die hohe Verarbeitungsgeschwindigkeit von In-Memory-Datenbanken, Analysen direkt in der Datenbank durchzuführen. Dies ist mit konventionellen Datenbanken in der Regel nicht möglich. Hier müssen die Daten zuerst aus der Datenbank extrahiert und eine Zwischenspeicherung durchgeführt werden. Die In-Memory-Technik weist allerdings auch Nachteile auf. Die wohl gravierendste Schwachstelle von In-Memory-Datenbanken liegt in der fehlenden Daten-Persistenz, also im Unvermögen, Daten über einen längeren Zeitraum bereitzuhalten. Denn Daten, welche sich auf dem Hauptspeicher befinden, gehen verloren, sobald seine Energieversorgung unterbrochen wird. Dies kann insbesondere bei Systemabstürzen zum Datenverlust führen. Eine Möglichkeit, diesem Problem zu begegnen, sind hybride Datenbanken, welche den Hauptspeicher, aber auch Festplatten zur Speicherung von Daten nutzen.
Die vorgestellten Beispiele zeigen, dass es genügend Möglichkeiten gibt, um mit Big Data zu arbeiten, unabhängig davon, ob es sich um sehr viele Daten, sehr unterschiedliche Daten oder Daten, die in hoher Frequenz anfallen, handelt. Die Technik stellt also nicht den limitierenden Faktor dar, der zwischen Big Data, auf der einen Seite, und wirtschaftlichem Erfolg, auf der anderen Seite, steht.