Allgemeiner Testaufbau
Im Chi²-Unabhängigkeitstest wird mit Hilfe der Chi²-Verteilung überprüft, ob die beiden in der Kreuztabelle betrachteten Variablen voneinander unabhängig sind. Dabei ist diese Unabhängigkeitshypothese als Nullhypothese formuliert, die es mittels der Chi²-Verteilung zu widerlegen gilt. Geht man davon aus, dass man es im allgemeinen Fall mit zwei Variablen A und B zu tun hat, wobei die Variable A durch k Ausprägungen und die Variable B durch l Ausprägungen gekennzeichnet sind, dann hat die dem Unabhängigkeitstest zugrunde liegende Kreuztabelle die Gestalt in Tabelle 2.
|
B1 |
B2 |
... |
Bl |
Summe |
A1 |
h11 |
h12 |
... |
h1l |
h1˙ |
A2 |
H21 |
h22 |
... |
h1l |
h2˙ |
... |
... |
... |
... |
... |
... |
Ak |
hk1 |
hk2 |
... |
hkl |
hk˙ |
Summe |
h˙1 |
h˙2 |
... |
h˙l |
m |
Tab. 2:Beispiel für Kreuztabelle
Die Werte hij zeigen dabei die absoluten Häufigkeiten für die möglichen Ausprägungskombinationen der beiden Variablen an. Dabei ist für die spätere Arbeit mit der Kreuztabelle darauf zu achten, dass für die Werte in der Tabelle hij ≥ 10 gilt. Ist dies nicht erfüllt, so müssen betroffene Ausprägungen zu geeigneten Klassen zusammengefasst werden.
Interpretation der Randhäufigkeiten
Die beiden Randhäufigkeiten h˙j und hi˙ sind in der Kontingenztabelle in der Zeile und der Spalte mit der Bezeichnung "Summe" aufgetragen und können – wie bereits im vorhergehenden Abschnitt im Beispiel beschrieben – als absolute Häufigkeiten einer Variablen unter Eliminierung des Einflusses der anderen Variablen verstanden werden. Die Summe über beide Randhäufigkeiten ergibt stets die Gesamtzahl der in der Kreuztabelle untersuchten Objekte, also den Wert m. Die Randhäufigkeiten spielen im Unabhängigkeitstest eine wesentliche Rolle, denn dem Unabhängigkeitstest liegt die Idee zugrunde, dass sich im Fall der Unabhängigkeit der beiden Variablen die erwarteten Häufigkeiten für die Ausprägungskombinationen innerhalb der Kreuztabelle aus den beiden Randhäufigkeiten ergeben müssten.
Wären nämlich die beiden Variablen unabhängig, dann müsste sich für die erwartete Häufigkeit in der Kreuztabelle als Überlagerung der beiden Ausprägungen Ai und Bj in folgender Weise ergeben:
Stochastische Unabhängigkeit
Die Berechnung der erwarteten Häufigkeiten eij ergibt sich unmittelbar aus der Definition der (stochastischen) Unabhängigkeit, die besagt, dass zwei Ereignisse X und Y voneinander unabhängig sind genau dann, wenn für ihre Auftretenswahrscheinlichkeiten p gilt:
Verbal ausgedrückt besagt die Gleichung, dass die Wahrscheinlichkeit für das gemeinsame Auftreten der beiden Variablen X und Y gleich dem Produkt der jeweils separat betrachteten Wahrscheinlichkeiten der beiden Ereignisse X und Y ist.
Bezieht man den Begriff der (stochastischen) Unabhängigkeit auf die Kreuztabelle und vergegenwärtigt man sich dabei, dass die Auftretenswahrscheinlichkeiten der Merkmalsausprägungen über die Randhäufigkeiten in Gestalt der empirischen Wahrscheinlichkeiten über die Gleichungen:
näherungsweise verbunden sind, dann ergibt sich für die erwarteten absoluten Häufigkeiten im Fall der (stochastischen) Unabhängigkeit die gewünschte Gleichung, indem man die Auftretenswahrscheinlichkeiten mit der Stichprobengröße multipliziert:
An die Größen eij gibt es zusätzliche Anforderungen: So darf etwa für keine erwartete Häufigkeit eij ≤ 1 gelten und für höchstens 20 % der erwarteten Häufigkeiten darf eij ≤ 5 erfüllt sein. Sind diese Bedingungen nicht erfüllt, dann sind auch hier wieder Ausprägungen zu geeigneten Klassen zusammenzuführen.
Testgröße
Sind alle Voraussetzungen erfüllt, dann kann analog zum Chi²-Anpassungstest die Testgröße χ² für den Chi²-Unabhängigkeitstest berechnet werden:
Der Freiheitsgrad der näherungsweise Chi²-verteilten Größe χ² beträgt df = ( k – 1 ) ˙ (l – 1 ) und die beobachteten Häufigkeiten hij können direkt aus der Kreuztabelle übernommen werden, während die erwarteten Häufigkeiten eij eigens berechnet werden müssen, was aber mit Excel problemlos realisierbar ist.
Lösung mit Excel
Für das Beispiel der fehlerhaften Rechnungen existiert in der Beispieldatei eine Tabelle "Unabhängigkeit", in der die Berechnung der Prüfgröße bereits vorbereitet wurde. Dabei empfiehlt es sich, neben der bereits vorhandenen Kreuztabelle (weiß eingefärbt) mit den beobachteten Häufigkeiten eine zweite Kreuztabelle ("erwartet"; rechts daneben) mit den erwarteten Häufigkeiten zu erstellen. Da diese zweite Kreuztabelle die gleiche Größe wie die bereits bestehende Tabelle besitzt, kann man als Ausgangspunkt die bereits existierende Tabelle innerhalb des Excel-Blattes kopieren, was als Resultat in der Tabelle "Unabhängigkeit" bereits geschehen ist.
Kreuztabelle der erwarteten Häufigkeiten
Nun muss die kopierte Kreuztabelle noch überarbeitet werden, wobei die Randzeilen und Randspalten mit den Summenhäufigkeiten in der kopierten Kontingenztabelle unverändert bleiben können. In der Tabelle "Unabhängigkeit" sind die unveränderten Ränder der kopierten Kreuztabelle fett formatiert. Der Grund für die Beibehaltung der Ränd...