Zusätzlich zu "klassisch" strukturierten Daten aus den operativen Systemen (ERP, CRM, FiBu, HR …) werden heute in Unternehmen durchschnittlich ~ 50 % unstrukturierte Daten als Dokumente erzeugt und verarbeitet, bei deren Inhalten es sich ebenfalls um wertvolles Wissen des Unternehmens handelt. Hinzu kommen noch ~ 30 % an Daten und Informationen, die nicht aus dem eigenen Unternehmen stammen. Durch die Lücke zwischen genutzten und vorhandenen, aber ungenutzten Daten fällt es Unternehmen schwer, Projektmanagement und Wissensmanagement so zu verknüpfen, dass Informationen umfassender und unternehmensweit genutzt werden können.
"Wenn Firmen wüssten, was sie eigentlich wissen…" betrifft daher neben dem Wissen in den Köpfen der Mitarbeiter auch das Wissen in den IT-Systemen des Unternehmens. Die Potenziale konsequenter Datennutzung werden anhand eigener Beispiele aus unterschiedlichen Branchen aufgezeigt.
Bauindustrie – Lernen aus anderen Projekten: Einem im gewerblichen und kommunalen Hochbau tätigen Baukonzern liegen in internen Berichtsdokumenten nahezu alle notwendigen Informationen vor, wie z. B. in Parkhäuser die Ein- und Ausfahrten zu gestalten sind, um Autos vor Schrammen zu schützen. Solche und ähnliche Fragen fallen in allen Projekten des Konzerns an, sodass eine unternehmensweite Bereitstellung dieses Wissens wertvolle Personalressourcen sparen würde. Auch Nacharbeiten an Projekten wären so vermeidbar.
Damit auf Fragen von Bauingenieuren passende Informationen und Dokumente bereitgestellt werden können, ist eine automatisierte semantische Wissensverarbeitung nötig.
- ITK-Branche – Nutzung von Kommunikationsdaten: Störungsmeldungen landen in der Abteilung, die die Fehler behebt. Nach semantischer Aufbereitung ließe sich die Kundenkommunikation auch von anderen Bereichen z. B. für Predicive Maintenance, Produktverbesserungen oder Preisbildung von Servicetarifen und vertrieblich nutzen. Datenschutz und Denken in Bereichen sind Herausforderungen, die eine konzernübergreifende Nutzung von Informationen erschweren.
- Medizin – Nutzung von Fehlerdaten: Ein Klinikkonzern sammelt Klagen von Patienten und stellt Fälle mit Urteilen anonym konzernweit bereit. Ziel ist, zu entscheiden, ob bei ähnlichen Fällen ein Widerspruch sinnvoll ist. Semantisch aufbereitet sind die Daten für das interne Qualitätsmanagement nutzbar.
Um die Nadel im Bytehaufen von Dokumenten zu finden, benötigen Mitarbeiter ca. 2 Stunden Arbeitszeit täglich. Der Produktivitätsverlust daraus lässt sich leicht abschätzen:
(Anzahl der Mitarbeiter) * (durchschnittlicher Stundenkostensatz) * (Suchzeit pro Mitarbeiter pro Arbeitstag) * (Arbeitstage pro Jahr) = Kosten pro Jahr in Euro
Eine konsequente Nutzung von Metadaten kann Abhilfe schaffen. Bei Metadaten handelt es sich um strukturierte Daten, die die eigentlichen Daten oder Dokumente mit Zusatzinformationen beschreiben. Metadaten lassen sich getrennt von den Daten erfassen, verwalten und analysieren und erleichtern ein "Finden statt Suchen". Metadaten ermöglichen die Verbindung von Dokumenten zu Datensätzen der IT-Systeme im Unternehmen, Suchmaschinen nutzen sie. Sicherheitsorgane interessieren sich für Metadaten von Handy-Verbindungen, und traurige Bekanntheit erhielten Metadaten 2014 durch die NSA-Affäre.
Will man verstehen, um was es inhaltlich geht oder was Dokumenten gemeinsam haben, reichen Metadaten nicht aus. Dafür ist deren semantische Analyse nötig, mit der automatisch logisch zusammenhängende Teile von Dokumenten (Abschnitte, Sätze …) in Konzepte (C) und Relationen zwischen Konzepten (CRC) zerlegt werden, die mit der Indexierung nach ihrer "Bedeutung" für das Dokument gewichtet werden. Bereits mit wenigen CRCs lässt sich der Inhalt von Dokumenten – gewissermaßen als "Zusammenfassung" – erfassen. Konzepte und CRCs lassen sich weiterverarbeiten und dynamisch analysieren und interaktiv visualisieren. Statistische Themenmodellen wie z. B. Topic Modeling erfassen die in Dokumenten vorkommende Themen, um diese analysieren zu können.
In einem Data-Science-Unternehmen fallen bei Mitarbeitern Hunderte von Artikeln, Internet-Recherchen, Berichte an. Um Themen- und branchenunabhängig systematisch recherchieren zu können und die relevanten Informationen herauszufiltern, die jetzt benötigt werden, entwickelt und nutzt Simba n³ ein System für Auffinden von Inhalten, (Inhalts-)Analyse, Visualisierung und Analytik, das deutlich über Möglichkeiten von Dokumentenmanagementsystemen hinaus geht. Abb. 3 zeigt als Beispiel daraus die Analyse und Visualisierung von 251.287 Dokumenten aus US-Botschaften von 1966 bis 2010, die von Chelsea Manning 2010 als Wikileaks-Daten öffentlich gemacht wurden. Nach automatischer semantischer Indexierung werden die Dokumente durch den semantischen Index, Metadaten, Konzepte CRCs beschrieben, wodurch eine interaktive Analyse über eine Web-Oberfläche möglich wird. Wird z. B. nach "money laundering" gesucht, werden 2318 Berichte gefunden, in denen Geldwäsche die dominierende ...