Prof. Dr. Jörn Kohlhammer
Big Data
Heutige Werkzeuge im Umfeld von Business Intelligence und Business Analytics verfügen bereits über breite Visualisierungsmöglichkeiten, die mithilfe des obigen Hintergrunds effektiv eingesetzt werden können. Bewegen wir uns nun in Abb. 1 in Richtung Big Data, also massiver, mitunter stark heterogener Datenmengen, so trifft der Data Scientist bei der Nutzung von Informationsvisualisierung schnell auf Probleme. Will er oder sie die Richtlinien aus Abb. 4 befolgen, so stellt sich bald die Frage, welche von vielleicht 100 oder mehr Attributen denn nun die relevantesten sind, die man am besten für die räumliche Position nutzt. Man kennt die beeindruckenden Demos der Tool-Hersteller, die mit dem Wissen über ihre Beispieldatensätze die Attribute auswählen, die zu interessanten Visualisierungen führen. Was aber tun, wenn man die Daten zum 1. Mal sieht?
Abb. 5: Der Visual-Analytics-Prozess, angepasst von Keims ursprünglicher Version
Arbeit zwischen Mensch und Maschine teilen
Als visuelle Lösung für solche Big-Data-Probleme haben sich in den letzten Jahren so genannte Visual-Analytics-Ansätze etabliert. Sie zielen darauf ab, die bestmögliche Arbeitsteilung zwischen Mensch und Maschine über die Integration von automatischen Methoden und Visualisierung zu erreichen. Steht ein Data Scientist also vor dem Problem, eine massive, unbekannte Datenmenge zu analysieren, stehen ihm oder ihr eine große Bandbreite an statistischen Methoden zur Verfügung, die auf Basis der Datenverteilung und der Abhängigkeiten zwischen Attributen Signifikanz- und Relevanzmaße berechnen können. Dies erlaubt es dem Data Scientist, auf einem deutlich höheren Erkenntnisstand mit der interaktiven Analyse zu beginnen.
Visual Analytics-Modell nach Keim et al.
Auch im Bereich Visual Analytics hat sich die Orientierung an einem Modell bewährt. Ursprünglich von Daniel Keim und seinem Team an der Universität Konstanz ausgearbeitet, wurde das Modell in die in Abb. 5 dargestellte Form weiter adaptiert. Man erkennt hier 2 Pfade von Daten zum menschlichen Wissen. Der obere Pfad folgt im Prinzip dem Modell aus Abb. 3, in dem Daten transformiert und visuell abgebildet werden, damit der Mensch Wissen aus der interaktiven Darstellung ziehen kann. Der untere Pfad stellt die automatische Verarbeitung von Daten dar. Hierfür werden Modelle geschaffen, die aus den Daten Wissen extrahieren. Dieses Vorgehen wird im Englischen daher häufig auch "Knowledge Discovery" genannt. Das Besondere an Visual Analytics ist, dass beide Pfade nicht – wie seit vielen Jahren – isoliert betrachtet werden, sondern integriert werden.
Dieser Integrationsschritt wurde notwendig, da Visualisierungstechniken allein keine massiven Datenmengen darstellen können. Natürlich könnte man die Daten extrem aggregieren und zusammenfassen – das hilft aber einem Data Scientist nicht bei datengetriebenen Ansätzen, sondern versteckt die interessanten Details. Auf der anderen Seite werden automatische Methoden häufig als Black Box wahrgenommen, die für den Menschen nicht nachvollziehbare Operationen auf den Daten ausführen und nur die Endergebnisse zur Verfügung stellen. Visual Analytics integriert den Menschen in die Analyse, indem Modelle visuell zugänglich gemacht, Zwischenergebnisse visualisiert und interaktive Stellschrauben bereitgestellt werden für iterative Anpassungen des Modells mit Darstellung der veränderten Ergebnisse möglichst in Echtzeit.
Erweiterungen des Modells
Das Visual-Analytics-Modell vereinfacht an verschiedenen Stellen stark, gerade was die Verarbeitung von Wissen durch den Menschen betrifft. Eine aktuelle Erweiterung des Modells um kognitive Prozesse geht deutlich stärker auf die menschliche Seite der Datenanalyse ein. Die Integration von Visualisierung und Modellen kann dabei auf verschiedene Weisen gelöst werden, je nach Aufgabe und Ziel des Benutzers. Für diese Integration geben wir in ein Beispiel in einem Buchbeitrag aus dem Public-Sector-Umfeld.
Nutzer im Zentrum von Visual Analytics
Visual Analytics bezeichnet also nicht Standard-Tools für Business Intelligence mit verbesserter Benutzeroberfläche. Es bezeichnet auch nicht die reine Ergebnisvisualisierung von statistischen Werkzeugen. Data Scientists nutzen verschiedene Modelle und Methoden, die sie für die Zwecke der Analyse verstehen und adaptieren müssen. Um diese Arbeit möglichst effektiv zu unterstützen, wird aktuell noch viel Neuland betreten – meist erst einmal in spezifischen Anwendungsfällen der Medizin, der Cyber-Sicherheit, Industrie 4.0 oder der Finanzwirtschaft. Dies sind auch die häufig genannten Anwendungsgebiete von Big Data. Allerdings liegt die Betonung auch hier auf einer klaren Orientierung an den Daten, den Benutzern und ihren Aufgaben.