Die Arbeitsweise mit dem Chi²-Anpassungstest soll am Beispiel fehlerhafter Rechnungen erläutert werden. Das betrachtete Unternehmen möge hierzu bei Lieferanten aus drei unterschiedlichen Branchen A, B und C Teile für die Produktion beziehen. Von den vorhandenen Eingangsrechnungen des Unternehmens wurden in Gestalt einer Stichprobe 1.000 Rechnungen zufällig ausgewählt. Diese ausgewählten Lieferantenrechnungen wurden auf ihre Fehlerhaftigkeit hin geprüft und anschließend die fehlerhaften Rechnungen den Branchen zugeordnet. Bei der Auszählung stellte sich heraus, dass von den 1.000 Rechnungen folgende Häufigkeiten an fehlerhaften Rechnungen pro Branche auftraten:
Unternehmen |
A |
B |
C |
Anzahl fehlerhafter Rechnungen |
60 |
51 |
34 |
Die in der Stichprobe beobachteten Häufigkeiten hoi stellen die Häufigkeiten je Branche dar und werden mit dem Zusatz "o" für "observed" bezeichnet. In unserem Beispiel liegen drei untersuchte Fälle A, B und C vor:
hoA = 60, hoB = 51, hoC = 34
Hypothesenbildung
In unserem Beispiel mögen Voruntersuchungen einen empirisch ermittelten Anteilwert von 14,4 % fehlerhafter Rechnungen ergeben haben. Weiterhin wollen wir von einer Gleichverteilungshypothese ausgehen, d. h., wir wollen annehmen, dass sich die fehlerhaften Rechnungen gleichmäßig auf alle Branchen aufteilen, sodass die Null- und die Alternativhypothese folgende Gestalt haben:
H0: |
Die fehlerhaften Rechnungen sind über die Branchen gleich verteilt. |
Ha: |
Die Wahrscheinlichkeiten für fehlerhafte Rechnungen unterscheiden sich. |
Gleichverteilungshypothese
Die Gleichverteilungshypothese soll mit einer Irrtumswahrscheinlichkeit von α = 0,05 überprüft werden, d. h., es soll mit 95 % statistischer Sicherheit eine Entscheidung gefällt werden, ob die Gleichverteilungshypothese abgelehnt werden muss oder nicht. Wird die Gleichverteilungshypothese in unserem Beispiel verworfen, so sagt dies aus, dass die Unterschiede zwischen den drei Branchen nicht mehr rein zufällig zu werten sind, sondern dass die Unterschiede systematische Gründe aufweisen.
Erwartete Häufigkeiten
Die Gültigkeit der Nullhypothese wird dadurch überprüft, dass den beobachteten Häufigkeiten die erwarteten absoluten Häufigkeiten hei (expected) gegenübergestellt werden. Bei einem Anteilswert von 14,4 % fehlerhafter Gesamtrechnungen kann man bei 1.000 geprüften Rechnungen rund 144 fehlerhafte Rechnungen erwarten, die sich bei einer Gleichverteilung auf 48 (= 144 / 3) fehlerhafte Rechnungen pro Branche verteilen sollten:
heA = 48, heB = 48, heC = 48
Prüfgröße
Aus den beobachteten Häufigkeiten hoi und den erwarteten Häufigkeiten hei lässt sich die Prüfgröße χ² ableiten, mit der sich eine Entscheidung über die Richtigkeit der Nullhypothese treffen lässt:
Im allgemeinen Fall folgt diese Prüfgröße χ² näherungsweise einer Chi²-Verteilung mit df = k – 1 Freiheitsgraden, wobei k die Anzahl der Merkmalsausprägungen bezeichnet. Eine wichtige Voraussetzung für die Verwendung der Chi²-Verteilung ist dabei, dass die erwarteten absoluten Häufigkeiten hei nicht zu klein werden, wobei sich als Faustregel hei ≥ 5 eingebürgert hat. Diese Bedingung ist in unserem Beispiel erfüllt.
Lösung mit Excel
Die Ergebnisse für den Anpassungstest in unserem Beispiel lassen sich mit MS-Excel leicht errechnen. Dazu öffne man die enthaltene Excel-Datei "Chi-Test" und betrachte das Blatt "Anpassungstest". Hier ist zunächst die Anzahl untersuchter Rechnungen notiert, also 1.000, sowie der erwartete Anteil falscher Rechnungen pro Branche, wenn man im Einklang mit der Nullhypothese von einer Gleichverteilung pro Branche ausgeht.
p-Wert
In dem weiß hinterlegten Tabellenabschnitt werden die in der Stichprobe beobachteten Häufigkeiten fehlerhafter Rechnungen nach Branchen geordnet den erwarteten Häufigkeiten gegenübergestellt. Unter der Tabelle sind dann der Freiheitsgrad und der berechnete p-Wert für den Chi²-Test angegeben, wobei der p-Wert die zur Prüfgröße gehörige, berechnete Irrtumswahrscheinlichkeit für die Ablehnung der Nullhypothese angibt. Der p-Wert ergibt sich als Ergebnis der Excel-Statistikfunktion CHITEST:
p-Wert: |
=CHITEST(D17:D19;E17:E19) |
Hierbei ist erwähnenswert, dass sich die beobachteten Werte in der linken Spalte D17:D19 der Tabelle befinden, während die erwarteten Werte in der rechten Spalte E17:E19 notiert sind.
Verwerfung der Gleichverteilungshypothese
Da im Allgemeinen nicht erwartet werden kann, dass die empirischen und die theoretischen Werte exakt übereinstimmen, kann die Feststellung der Übereinstimmung oder der Abweichu...