Mehrstichprobentest
Der Chi²-Homogenitätstest ist zu den verteilungsfreien Verfahren zu zählen und ist dem Chi²-Unabhängigkeitstest sehr ähnlich, wobei allerdings beim Homogenitätstest nicht die stochastische Unabhängigkeit von Merkmalen überprüft wird, sondern die Nullhypothese, dass mehrere Stichproben aus der gleichen Grundgesamtheit stammen und somit derselben Verteilung angehören. Im Unterschied zum Chi²-Anpassungstest, wo nur eine Stichprobe untersucht wurde, handelt es sich beim Chi²-Homogenitätstest um einen Mehrstichprobentest.
Testaufbau
Wie beim Unabhängigkeitstest werden auch beim Chi²-Homogenitätstest Kreuztabellen verwendet, wobei beim Homogenitätstest die zweite Variable als die gezogenen Stichproben aufgefasst werden können. Folglich besitzen die Kontingenztabellen des Homogenitätstests die gleiche Struktur mit den gleichen Anforderungen an die Tabelleneinträge, wie dies beim Unabhängigkeitstest bereits ausführlich diskutiert wurde.
Im allgemeinen Fall geht man von einem Merkmal A mit k Ausprägungen aus, von dem man l Stichproben vorliegen hat. Dabei können die Umfänge der auftretenden Stichproben durchaus unterschiedlich sein. Nach Auswertung der verschiedenen Stichproben hat die zugehörige Kreuztabelle dann folgende Gestalt:
|
S1 |
S2 |
... |
S1 |
Summe |
A1 |
h11 |
h12 |
... |
h1l |
h1˙ |
A2 |
h21 |
h22 |
... |
h1l |
h2˙ |
... |
... |
... |
... |
... |
... |
Ak |
hk1 |
hk2 |
... |
hkl |
hk˙ |
Summe |
h˙1 |
h˙2 |
... |
h˙l |
m |
Die Werte hij bezeichnen hierbei wieder die beobachteten Häufigkeiten mit denen die i-te Merkmalsausprägung in der j-ten Stichprobe auftritt. Wie bereits erwähnt gelten im Homogenitätstest die gleichen Anforderungen an die Kreuztabelle und ihre Einträge, wie diejenigen, die bereits aus dem Unabhängigkeitstest bekannt sind. Auch die Randhäufigkeiten h˙j und hi˙ sowie die erwarteten Häufigkeiten eij stimmen mit denjenigen aus dem Unabhängigkeitstest überein, d. h., es gilt:
wobei ebenfalls die Anforderungen an die Werte der eij vom Chi²-Unabhängigkeitstest übernommen werden können.
Formulierung der Nullhypothese
Die Nullhypothese beim Chi²-Homogenitätstest lautet, dass alle Stichproben aus derselben Verteilung stammen, wobei zur Überprüfung der Hypothese analog zum Unabhängigkeitstest die Prüfgröße:
berechnet wird, die wiederum näherungsweise Chi²-verteilt mit dem Freiheitsgrad df = ( k – 1) ˙ (l – 1) ist.
Die Anwendung des Homogenitätstests soll wieder am Beispiel der fehlerhaften Rechnungen verdeutlicht werden, wobei wir nun drei Stichproben fehlerhafter Rechnungen aus verschiedenen Perioden betrachten. Während die Stichprobe 1 die bereits bekannte Stichprobe aus dem Anpassungstest darstellt, sind die Stichproben 2 und 3 in zwei weiteren Perioden durchgeführt worden und geben Auskunft über die Verteilung der fehlerhaften Rechnungen nach Branchen in diesen zwei weiteren Perioden:
Nummer |
Stichprobenumfang |
A |
B |
C |
1 |
145 |
60 |
51 |
34 |
2 |
220 |
84 |
67 |
69 |
3 |
125 |
52 |
44 |
29 |
Bemerkenswert ist hierbei, dass der Stichprobenumfang der drei Stichproben verschieden ist, was für die Anwendung des Chi²-Homogenitätstests keine Einschränkung darstellt.
Realisierung in Excel
Die zum Beispiel gehörige Kreuztabelle mit den beobachteten Häufigkeiten zusammen mit der wie im Chi²-Unabhängigkeitstest zu konstruierenden zweiten Kreuztabelle der erwarteten Häufigkeiten sind in der beiliegenden Excel-Datei in der Tabelle "Homogenität" wiederum in weiß bzw. hellgrün eingefärbt. Ebenso wie im Chi²-Unabhängigkeitstest errechnet sich im Chi²-Homogenitätstest die zunächst kompliziert aussehende Prüfgröße mit MS-Excel sehr einfach über die Funktion CHITEST, sodass sich folgendes Bild ergibt:
Empirisch |
S1 |
S2 |
S3 |
Summe |
A |
60 |
84 |
52 |
196 |
B |
51 |
67 |
44 |
162 |
C |
34 |
69 |
29 |
132 |
Summe |
145 |
220 |
125 |
490 |
Prozent |
29,6% |
44,9% |
25,5% |
100,0% |
mit zugehörigem p-Wert: Irrtumswahrscheinlichkeit = 39,86 %.
Zur Interpretation der Ergebnisse muss man sich die Nullhypothese des Chi²-Homogenitätstests vergegenwärtigen, die lautet:
H0: |
Alle drei Stichproben gehorchen der gleichen Verteilung. |
Ha: |
Mindestens zwei der drei Stichproben stammen aus unterschiedlichen Verteilungen. |
Inhaltlich betrachtet kann die Nullhypothese so interpretiert werden, dass die Verteilung der fehlerhaften Rechnungen auf die Branchen in allen drei Stichproben die gleiche ist. Da die Stichproben in unterschiedlichen Perioden gewonnen wurden, formuliert die Nullhypothese die Frage, ob die Verteilung der fehlerhaften Rechnungen auf die drei Branchen in allen Perioden gleich, also periodenunabhängig ist.
Funktion CHITEST
Die Excel-Funktion CHITEST liefert in unserem Beispiel aus den beobachteten und den erwarteten Häufigkeiten einen p-Wert von 39,9 %, der zeigt, dass die Nullhypothese nur mit rund 60 % statistischer Sicherheit verworfen werden kann, was einen für die Praxis viel zu kleinen Wert darstellt. Formal ausgedrückt besagt dies, dass die Nullhypothese nicht verworfen werden kann, d. h., die gleiche Verteilung der fehlerhaften Rechnungen auf die drei Branchen in den drei Perioden ist nicht signifikant zu widerlegen.