Marcel Graf, Holger Müller
Um Data-Mining-Projekte erfolgreich durchzuführen, muss die Fachabteilung über ein Grundverständnis der Verfahren verfügen. Die Analysealgorithmen lassen sich trotz stetiger Weiter- und Neuentwicklung in einige wesentliche Verfahrenstypen unterteilen. In Tabelle 1 wird eine Übersicht der Verfahren mit ihrer jeweiligen Zielstellung dargestellt. Klassifizierung, Clusterung und Profiling werden anschließend anhand einer typischen Problemstellung im Beschaffungscontrolling detaillierter vorgestellt.
Verfahren |
Zielstellung |
Klassifizierung (Diskriminanzanalyse) |
Die Klassifizierung wird genutzt, um unbekannte Objekte in vorgegebene Kategorien einzuordnen. Voraussetzung ist eine Datentabelle ("Trainingsdaten") mit bereits kategorisierten Datensätzen. |
Clustering |
Unter Clustering werden Techniken zusammengefasst, die dem Auffinden von Untergruppen (Clustern) in Daten dienen. Ähnlich wie die Diskriminanzanalyse werden Objekte in Klassen eingeteilt, allerdings ohne die vorherige Vorgabe einer Gruppierung bzw. Zielvariable. Die Verfahren bilden selbständig homogene Gruppen. |
Regressionsanalyse |
Die Regressionsanalyse wird genutzt, um den Einfluss verschiedener Merkmale auf eine Zielgröße zu analysieren. Dadurch lassen sich Zusammenhänge quantifizieren sowie der Wert der Zielgröße (statistisch) vorhersagen. |
Warenkorb-/Assoziationsanalyse |
Die Warenkorb-/Assoziationsanalyse untersucht das gemeinsame Auftreten von Objekten in gleichen Transaktionen (z. B. einer Bestellung). |
Netzwerkanalyse/ Verknüpfungsvorhersage |
Die Netzwerkanalyse untersucht die Stärke bzw. das Fehlen von Verbindung zwischen Objekten, um beispielweise Verknüpfungsvorhersagen abzuleiten. |
Profiling (Verhaltensanalyse) |
Profiling analysiert das Verhalten einer Grundgesamtheit, einzelner Klassen oder eines Objekts. Dazu werden vorstehende Verfahren in Kombination eingesetzt. Als Ergebnis wird ein zu erwartender Wert (=Profil) ermittelt. |
Text-/Webmining |
Text-/Webmining wird genutzt, um aus unstrukturierten Textdaten Informationen zu gewinnen. Auch hier werden verschiedene Verfahren in Kombination eingesetzt. |
Tab. 1: Zielstellung wesentlicher Datenanalyseverfahren
5.1 Beispiel zur Kontrolle der Ausschöpfung des Versorgungspotenzials
5.1.1 Problemstellung
Ein häufiges Problem im Beschaffungscontrolling ist die Bewertung des Lieferantenrisikos zur Kontrolle der Versorgungssicherheit. Das Risiko bezieht sich auf mögliche Probleme der Lieferung und mit dem Lieferanten selbst (Lieferausfall, -verzug, Fehlerquote, Termintreue usw.) I. d. R. basiert eine Bewertung neuer Lieferanten auf einer Selbstauskunft ggf. ergänzt um Informationen von Externen wie z. B. Auskunfteien.
Es liegen jedoch noch keine eigenen Erfahrungswerte aus einer Geschäftsbeziehung vor. Die Zielstellung des Beispiels besteht darin, neue und damit unbekannte Lieferanten in eine Risikoklasse einzuordnen. Abhängig von der vorhergesagten Klasse könnte z. B. die Betreuungsintensität der Lieferanten gesteuert werden.
5.1.2 Lösungsansatz
Zur Klassifizierung der Lieferanten nach ihrem Risiko wird ein datenanalytischer Ansatz mittels einer Diskriminanzanalyse gewählt. Die Diskriminanzanalyse ist ein Verfahren, um zwischen zwei oder mehreren Gruppen zu unterscheiden. Der Aufbau einer Diskriminanzanalyse beginnt mit der Festlegung der Gruppen.
In unserem Fall sind es drei Risikoklassen: niedrig, mittel und hoch (s. Abb. 2). Um den Algorithmus anzulernen, werden Trainingsdaten benötigt, bei denen die Gruppenzugehörigkeit eineindeutig vorliegt. Auf dieser Basis erlernt das Verfahren, Objekte anhand verschiedener Merkmale (in unserem Beispiel Jahresumsatz und Kunden) in Bezug auf die Zielvariable (Risikoklasse) zu unterscheiden. Grundlage der Einteilung ist die Berechnung der Wahrscheinlichkeit für die Zugehörigkeit eines Objekts zu den einzelnen Klassen.
Abb. 2: Klassifizierung neuer Lieferanten
5.2 Beispiel zur Kontrolle der Ausschöpfung des Kostensenkungspotenzials
5.2.1 Problemstellung
Im zweiten Aufgabenbereich des Beschaffungscontrollings liegt der Fokus auf der Kontrolle des Kostensenkungspotenzial. Besonders bei Bestellungen mit geringem Beschaffungswert werden in den Abwicklungsprozessen Vereinfachungen vorgenommen, um den Aufwand zu begrenzen. Beispielsweise werden Bestellungen auf Sammelkonten gebucht ohne umfangreiche Stammdaten für Material und Lieferant anzulegen. Dadurch wird die Transparenz hinsichtlich des Kostensenkungspotenzials verringert, da Bündelungspotenziale für ähnliche Produktgruppen nicht identifiziert werden können.
5.2.2 Lösungsansatz
Eine mögliche Lösung dieses Problems besteht darin, eine Clusteranalyse durchzuführen. Bei diesem Verfahren werden Techniken eingesetzt, die dazu dienen, Untergruppen (Cluster) in Daten eigenständig zu finden. Im Gegensatz zur Diskriminanzanalyse erfolgt hierbei keine Vorgabe einer Gruppierung bzw. Zielvariable. Indem das Verfahren einander ähnliche Objekte identifiziert, können homogene Gruppe abgeleitet wer...