Marcel Graf, Holger Müller
Eine mögliche Lösung dieses Problems besteht darin, eine Clusteranalyse durchzuführen. Bei diesem Verfahren werden Techniken eingesetzt, die dazu dienen, Untergruppen (Cluster) in Daten eigenständig zu finden. Im Gegensatz zur Diskriminanzanalyse erfolgt hierbei keine Vorgabe einer Gruppierung bzw. Zielvariable. Indem das Verfahren einander ähnliche Objekte identifiziert, können homogene Gruppe abgeleitet werden. Zentrale Prämisse für ein aussagekräftiges Ergebnis besteht darin, dass innerhalb einer Gruppe ein hohes Maß an Gleichheit, zwischen den Gruppen hingegen ein hohes Maß an Ungleichheit erzielt wird.
Um das Verfahren umzusetzen, sind zunächst vergleichende Merkmale auszuwählen, anhand derer später die Distanzen zwischen den Merkmalspunkten bewertet werden. Die Herausforderung hierbei besteht darin, ein passendes Maß zu finden, um Ähnlichkeiten bzw. Distanzen zu quantifizieren, da Objekte immer von mehreren Merkmalen beschrieben werden können.
Nachfolgend ist das geeignete Clusterverfahren auszuwählen, wobei zwischen partitionierenden und hierarchischen Verfahren unterschieden wird (s. Abb. 3). Partitionierende Verfahren geben i. d. R. die Anzahl der zu bildenden Cluster vor, wobei eine höhere Anzahl an Clustern zur Erhöhung der Homogenität führt. Jedoch leidet dadurch die Verallgemeinerbarkeit, da im Extremfall jedes Objekt ein eigenes Cluster bilden kann. Das Verfahren nimmt dann entsprechend der vorgegebenen Clusteranzahl eine zufällige Einteilung vor und bestimmt die Distanz zwischen dem Clusterzentrum und den umliegenden Objekten. Die Einteilung wird so lange angepasst, bis die Distanzen minimal sind.
Bei hierarchischen Verfahren werden Baumstrukturen (visualisiert als Dendogramm) entweder Top-down oder Bottom-up gebildet. Im Top-down-Ansatz werden zunächst alle Objekte als ein einziges umfassendes Cluster angesehen und dieses Cluster sukzessive in weiteren Schritten unterteilt. Im Bottom-up-Verfahren hingegen wird jedes einzelne Objekt zunächst einem Cluster zugeordnet. Dann werden nach und nach ähnliche Objekte zu übergeordneten Clustern fusioniert.
Abb. 3: Clusterverfahren
Im oben angesprochenen Problemfall lassen sich Bestellungen in einem Sammelkonto über ein hierarchisches Verfahren in passende Warengruppen bündeln. Der Algorithmus bewertet die Ähnlichkeit der Merkmale zwischen den Datensätzen und gruppiert diese entsprechend. Beispielhafte Ergebnisse wurden in Form eines Dendogramms visualisiert (s. Abb. 4).
Die Clusterbezeichnungen "Autovermietungen" und "Büroartikel" wurden dabei seitens der Fachabteilung im Rahmen der Ergebnisinterpretation eingeordnet. Cluster mit einem sachlogischen Zusammenhang können nun weiter untersucht werden, um Kostensenkungspotenziale zu erschließen. Beispielsweise können Rahmenverträgen für diese Warengruppen abgeschlossen werden, um Mengenrabatte zu erzielen oder andere Kostenersparungen zu realisieren.
Abb. 4: Beispielhafte Analyse eines Sammelkontos