Data-Mining-Verfahren: Anwendung im Beschaffungscontrolling / 5.2.2 Lösungsansatz

Marcel Graf, Holger Müller

Eine mögliche Lösung dieses Problems besteht darin, eine Clusteranalyse durchzuführen. Bei diesem Verfahren werden Techniken eingesetzt, die dazu dienen, Untergruppen (Cluster) in Daten eigenständig zu finden. Im Gegensatz zur Diskriminanzanalyse erfolgt hierbei keine Vorgabe einer Gruppierung bzw. Zielvariable.^{^[1]} Indem das Verfahren einander ähnliche Objekte identifiziert, können homogene Gruppe abgeleitet werden. Zentrale Prämisse für ein aussagekräftiges Ergebnis besteht darin, dass innerhalb einer Gruppe ein hohes Maß an Gleichheit, zwischen den Gruppen hingegen ein hohes Maß an Ungleichheit erzielt wird.^{^[2]}

Um das Verfahren umzusetzen, sind zunächst vergleichende Merkmale auszuwählen, anhand derer später die Distanzen zwischen den Merkmalspunkten bewertet werden. Die Herausforderung hierbei besteht darin, ein passendes Maß zu finden, um Ähnlichkeiten bzw. Distanzen zu quantifizieren, da Objekte immer von mehreren Merkmalen beschrieben werden können.

Nachfolgend ist das geeignete Clusterverfahren auszuwählen, wobei zwischen partitionierenden und hierarchischen Verfahren unterschieden wird (s. Abb. 3).^{^[3]} Partitionierende Verfahren geben i. d. R. die Anzahl der zu bildenden Cluster vor, wobei eine höhere Anzahl an Clustern zur Erhöhung der Homogenität führt. Jedoch leidet dadurch die Verallgemeinerbarkeit, da im Extremfall jedes Objekt ein eigenes Cluster bilden kann. Das Verfahren nimmt dann entsprechend der vorgegebenen Clusteranzahl eine zufällige Einteilung vor und bestimmt die Distanz zwischen dem Clusterzentrum und den umliegenden Objekten. Die Einteilung wird so lange angepasst, bis die Distanzen minimal sind.^{^[4]}

Bei hierarchischen Verfahren werden Baumstrukturen (visualisiert als Dendogramm) entweder Top-down oder Bottom-up gebildet. Im Top-down-Ansatz werden z...

Jetzt kostenlos 4 Wochen testen

Anmelden und Beitrag in meinem Produkt lesen