Im Folgenden sollen wichtige Tests auf Zufälligkeit vorgestellt werden, wobei den Auftakt der Iterationstest bildet, der auch Interationshäufigkeits-, Run- oder Sequenztest genannt wird und häufig auch nur als Test auf Zufälligkeit bekannt ist. Dabei orientieren sich alle dargestellten statistischen Methoden an und alle vorgestellten Analyseverfahren werden am bekannten Beispiel der 55 Tagesergebnisse der Filiale erläutert, sodass ein unmittelbarer Praxisbezug gewährleistet ist. Die Nutzung der vorgestellten Verfahren im Tagesgeschäft erschließt sich dem Leser dann durch die beiliegende Excel-Datei "Statistische Prüfung auf Zufälligkeiten", in der alle statistischen Methoden anhand des Beispiels aufbereitet sind.
Beim Test auf Zufälligkeit, d. h. beim Iterationshäufigkeitstest, wird aus der zu untersuchenden Zahlenreihe eine neue Reihe abgeleitet, nämlich die Reihe der Iterationen (bzw. Sequenzen, Runs oder Phasen). Dabei versteht man unter einer Iteration eine Folge kontinuierlich steigender (S) bzw. fallender (F) Zahlenwerte der Originalreihe. Folgen in der Originalreihe zwei gleiche Zahlenwerte aufeinander, so werden die gleichen Werte durch einen einzigen Wert ersetzt und die Originalreihe um die gestrichenen Werte somit verkürzt.
So ergibt sich für die ersten 10 Werte unserer 55 Tagesergebnisse:
1273, 1143, 989, 1346, 523, 3456, 825, 8246, 3866, 532
folgende abgeleitete Reihe:
1273 -F- 1143 -F- 989 -S- 1346 -F- 523 -S- 3456 -F- 825 -S- 8246 -F- 3866 -F- 532,
d. h., man erhält aus der Originalreihe eine neue Reihe, die nur noch aus zwei möglichen Zeichen besteht:
F F S F S F S F F,
wobei S für zwei aufeinander folgende aufsteigende Zahlenwerte und F für eine fallende Formation steht. Die beiden Zeichen der neuen Reihe repräsentieren ein binäres Merkmal, d. h. ein Merkmal, was nur zwei Merkmalsausprägungen besitzt (F, S). Weiterhin fällt sofort auf, dass die abgeleitete Reihe genau ein Element weniger besitzt als die Originalreihe, da für das letzte Element der Originalreihe kein Vergleichswert mehr existiert.
Ausgehend von den 55 Tagesergebnissen der Filiale erhält man somit eine Folge mit 54 Elementen:
FFSFSFSFFFFFSFSSFFFSSFSFSFFFFSSFFSFSFSSSFSFSFFFFSFSFFS.
Bei der Auswertung dieser Folge gewinnt man die Erkenntnis, dass es genau n1 = 23 Tage mit zwei aufeinander folgenden, steigenden Tagesergebnissen und genau n2 = 31 Tage mit fallenden Tagesdifferenzen gibt. Da das erste Tagesergebnis keinen Vorgänger besitzt, hat die abgeleitete Folge nur 54 Elemente und es gilt 23 + 31 = 54. Im allgemeinen Fall wird die Folge eines binären Merkmals mit n Beobachtungswerten x1, x2, ..., xn in der Reihenfolge ihres Auftretens notiert. Dabei sei n1 die Anzahl der S-Elemente und n2 die Anzahl der F-Elemente, d. h., aus der binären Kodierung der Merkmalsausprägungen erhält man die Gleichung n1 + n2 = n.
Eine Iteration, Sequenz, Phase oder ein Run ist eine Folge von auftretenden Merkmalsausprägungen, die zur gleichen Merkmalsausprägung gehören, d. h., bei Einfärbung der steigenden und fallenden Iterationen erhält man folgendes Bild:
FFSFSFSFFFFFSFSSFFFSSFSFSFFFFSSFFSFSFSSSFSFSFFFFSFSFFS.
In unserem Beispiel hat man genau 16 S-Sequenzen und genau 16 F-Sequenzen vorliegen, was eine Gesamtzahl von 32 Sequenzen ergibt.
Die zum Test gehörige Nullhypothese geht davon aus, dass die Reihenfolge der Beobachtungswerte zufällig ist, die Alternativhypothese komplementiert die Nullhypothese, sodass für den Iterationstest die Hypothesen wie folgt formuliert werden:
H0: |
Die Reihenfolge der Beobachtungswerte ist zufällig. |
Ha: |
Die Reihenfolge der Beobachtungswerte ist zufällig, d. h., es gibt zu viele oder zu wenig Sequenzen. |
Die einfachste Teststatistik besteht aus der Anzahl R von Sequenzen, das sind geschlossene Gruppen von gleichen Elementen, denen ein anderes Element oder keines vorsteht. Im Beispiel gibt es, wie bereits erwähnt, genau R = 32 Sequenzen. Wenn die Werte rein zufällig gereiht sind, darf die Zahl der Sequenzen weder zu hoch noch zu niedrig sein. Wir sprechen vom Iterationstest oder Runtest.
Unter H0 (zufällige Reihung) lässt sich die Wahrscheinlichkeitsverteilung bestimmen:
wobei n1 + n2 = n und k = 1, ..., min(n1, n2).
Die für den Test auf Zufälligkeit verwendete Prüfgröße R ist die Gesamtzahl der Folgen der binären Merkmalsausprägungen, die zur gleichen Ausprägung gehören, wenn die Objekte in der Reihenfolge ihrer Beobachtung festliegen. Für n1, n2 > 20 ist die Prüfgröße R unter der Annahme der zufälligen Reihung, d. h. der Richtigkeit von H0, näherungsweise normal verteilt mit den Parametern:
Die Gültigkeit der Nullhypothese kann dann wieder mittels eines Konfidenzintervalls zu einem vorgegebenen Signifikanzniveau überprüft werden.
In unserem Beispiel ergibt sich für die Prüfgröße der Wert R = 32. Weiterhin weiß man aus dem Beispiel, dass n1 = 23 und n2 = 31 sind, sodass die Voraussetzung für den Einsatz der Normalverteilung gegeben ist und man unter der Annahme der Gültigkeit der Nullhypothese folgende Größen für R haben müsst...