Den Zufall ausschließen
Will man allgemein Aussagen über einen Parameter mit statistischen Methoden gewinnen, so spricht der Statistiker vornehm von einem Parametertest. Mit einem Parametertest möchte man statistisch abgesicherte Aussagen über Parameter treffen, sodass sich die gefundenen Ergebnisse nicht nur aufgrund von Zufallsmechanismen einstellen, sondern statistisch gesichert sind. Liegt eine solche überzufällige Situation mit einer ausreichenden statistischen Sicherheit vor, so sagt man, dass der Parametertest signifikant ist. Die Signifikanz ist also wichtig insbesondere für die Übertragbarkeit von Aussagen einer untersuchten Stichprobe auf die Grundgesamtheit.
Da sich die Stichprobe zufällig ergeben hat, stellen die Stichprobenparameter selbst Zufallsvariablen dar, d. h., die Schätzwerte fallen nie ganz exakt mit den wahren Parametern zusammen, da sie von der zufällig ausgewählten Stichprobe abhängen. Folglich ist die Parameterschätzung von der Stichprobe auf die Grundgesamtheit (Inferenzschluss) stets mit einem Zufallsfehler (Stichprobenfehler) behaftet:
Die Fehlerquote verringern
Da der Stichprobenmittelwert x¯ für einen Stichprobenumfang von größer als 10 aufgrund des zentralen Grenzwertsatzes der Statistik stets als annähernd normal verteilte Größe angenommen werden kann, gilt dies auch für den Zufallsfehler. Der Fehler ε = µ – x¯ ist bei einer Stichprobe unvermeidbar, kann aber durch die Vergrößerung des Umfangs der Teilerhebung beliebig verkleinert werden. Aus der Statistik ist weiterhin bekannt, dass der Zufallsfehler normal verteilt ist (Wiederholung s. o.) mit dem Mittelwert 0 und der Varianz σ²/n. Das heißt, die Stichprobenfehler sind N(0,σ²/n)-verteilt, wobei n wieder den Stichprobenumfang bezeichnet und σ² die wahre, aber i.A. unbekannte Varianz der Grundgesamtheit bezeichnet. Aus den bekannten Eigenschaften der Normalverteilung heraus lassen sich innerhalb bestimmter Intervalle um den Mittelwert Parameterschätzungen vornehmen:
Abb. 1:Normalverteilung
So ist aus dem Diagramm in Abb. 1 ersichtlich, dass der Fehler zwischen dem empirischen und dem wahren Mittelwert in 68,3 % aller Fälle höchstens um die einfache Standardabweichung ±σ /√ n differiert oder anders ausgedrückt, dass der wahre Mittelwert µ mit 68,3%iger Sicherheit im Intervall (x¯ – σ /√ n, x¯ + σ /√ n) zu finden sein wird. Bei einer Verdoppelung der Intervalllänge, d. h., bei einer Betrachtung des Intervalls (x¯ – 2 * σ /√ n, + x¯ 2 * σ /√ n), kann bereits mit 95,5%iger Sicherheit angenommen werden, dass der wahre Mittelwert µ dem Intervall angehören wird. Dabei kann die wahre Varianz σ² ab einem Stichprobenumfang von mindestens 30 Elementen durch die empirische Varianz s² der Stichprobe geschätzt werden, wobei sich die empirische Varianz für den Mittelwert nach folgender Formel berechnet:
Die glockenförmige Normalverteilung ist stets durch zwei Parameter eindeutig charakterisiert, nämlich durch einen Mittelwert µ und eine Varianz σ², was man meist durch die Bezeichnung N(µ, σ²)-Verteilung ausdrückt. Dabei nennt man die Intervalle der Gestalt µ ± t x σ mit dem Mittelwert µ und der Standardabweichung σ für eine solche Normalverteilung auch Konfidenzintervalle, wobei sich der Multiplikator t vor der Standardabweichung zu jeder vorgegebenen statistischen Sicherheit bestimmen lässt.
Den Multiplikator t nennt man auch das Signifikanzniveau. Er wird in der Praxis meist über die Irrtumswahrscheinlichkeit normiert. Obwohl in der Praxis meist eine Irrtumswahrscheinlichkeit von 10 % und kleiner als signifikant gilt, sollen in der Tabelle 1 wichtige Signifikanzniveaus mit zugehörigen Sicherheiten und Irrtumswahrscheinlichkeiten dargestellt werden.
Signifikanzniveau |
Sicherheitswahrscheinlichkeit |
Irrtumswahrscheinlichkeit |
0,67 |
50,0 % |
50,0 % |
1,00 |
68,3 % |
31,7 % |
1,64 |
90,0 % |
10,0 % |
1,96 |
95,0 % |
5,0 % |
2,00 |
95,5 % |
4,5 % |
3,29 |
99,9 % |
0,1 % |
Tab. 1: Wichtige Signifikanzniveaus
Die empirische Standardabweichung für den Mittelwert ergibt sich durch direkte Berechnung aus der Stichprobe, wobei Excel die Berechnung der empirischen Standardabweichung mit der Statistikfunktion STABW bereitstellt. Unter Verwendung der Normalverteilung erhält man als Ober- und Untergrenzen der 95-%-Konfidenzintervalle für den wahren Mittelwert der Grundgesamtheit folgende Ober- und Untergrenzen:
Obergrenze für µ : x¯ + 1,96 * s /√n |
Untergrenze für µ : x¯ - 1,96 * s /√n |