Statistische Kenngrößen
Bevor ein genauerer Vergleich der ersten Ziffern mit dem Benford-Profil vorgenommen wird, sollen zunächst einige charakteristische Kenngrößen der Statistik aus der Zahlenmenge extrahiert werden, die bereits einige wichtige Hinweise über die Eigenschaften der Zahlenmenge als Ganzes liefern. Neben der bereits durch unser Beispiel bekannten Anzahl von Zahlen in der Menge spielen die statistischen Größen
- Mittelwert
- Standardabweichung
- Schiefe
eine besondere Rolle, da diese Angaben über die durchschnittliche Verteilung der Werte, ihre Streuung um den Mittelwert sowie über die Lage der Werte um den Mittelwert liefern. Während der Mittelwert und die Standardabweichung i.A. bekannte Größen darstellen, soll kurz etwas zur Interpretation der Schiefe gesagt werden, die als Maß für die Symmetrie der Verteilung der Werte Auskunft gibt. So besagt eine Schiefe von null, dass die Werte symmetrisch um den Mittelwert liegen, während eine Schiefe größer null (kleiner null) auf eine links steile (rechts steile) Verteilung hindeuten, d.h., bei einer Schiefe größer null dominieren anschaulich die kleinen Werte über die großen Werte.
Chi2-Anpassungstest
Die Überprüfung, ob die Gesamtmenge der Tagesumsätze eine Benford-Menge darstellt, erfolgt mit dem Chi2-Anpassungstest für die ersten Ziffern. Dabei handelt es sich um einen statistischen Test, mit dem die Gültigkeit einer Hypothese, der so genannten Nullhypothese H0 , überprüft wird. Die Nullhypothese im Fall des hier verwendeten Chi2-Anpassungstests stellt die Aussage dar, dass die Verteilung der empirischen Häufigkeiten mit den theoretischen Häufigkeiten aufgrund der Benford-Verteilung übereinstimmt. Dazu wird eine Auszählung der vorliegenden, beobachteten absoluten Häufigkeiten vorgenommen, die dann mit den theoretischen absoluten Häufigkeiten verglichen werden, wobei der Vergleich aufgrund einer bestimmten Prüfgröße durchgeführt wird. Nun kann man allgemein nicht erwarten, dass die empirischen und die theoretischen Werte exakt übereinstimmen. Die Feststellung der Übereinstimmung oder der Abweichung der Häufigkeiten kann nur mit einer bestimmten statistischen Sicherheit (Signifikanzniveau) getroffen werden.
Sicherheit für Übereinstimmung
Mit dem Chi2-Anpassungstest sind somit Aussagen darüber möglich, ob mit einem festen Signifikanzniveau, in der Praxis meist 95 % Sicherheit, eine vorliegende Wahrscheinlichkeitsverteilung mit einer theoretischen Verteilung übereinstimmt. Hintergrund des Tests ist die Gegenüberstellung der beobachteten und der theoretischen Häufigkeiten in der Prüfgröße:
Chi2 = ∑i (hibeo – hitheo)2 / hitheo, |
wobei sich die Summe über alle auftretenden Werte erstreckt, was durch den Index i angedeutet wird. Diese Prüfgröße wird mit einem bestimmten Vergleichswert, der abhängig von der gewählten statistischen Sicherheit und der Anzahl der Beobachtungen ist, verglichen. Aufgrund dieses Vergleichs kann entschieden werden, ob eine Übereinstimmung zwischen den vorliegenden Beobachtungen und der theoretischen Benford-Verteilung mit der vorgegebenen Sicherheit vorliegt oder nicht. Liegt eine Übereinstimmung vor, gilt die Nullhypothese durch den Test bestätigt, falls nicht, muss die Nullhypothese abgelehnt (verworfen) werden. Praktisch bedeutet dies, dass eine Übereinstimmung der empirischen mit den theoretischen Häufigkeiten mit der notwendigen statistischen Sicherheit nicht nachgewiesen werden kann. Auf die Darstellung weiterer Details des Chi2-Anpassungstests soll hier verzichtet werden, der praktische Umgang mit dem Test wird später anhand von Excel gezeigt. Interessierte Leser seien für weiterführende Informationen auf das Buch verwiesen.
Konfidenzintervalle
Neben dem Chi2-Test können jeweils für alle neun Anfangsziffern auch Intervalle angegeben werden, in denen sich die beobachteten Häufigkeiten bewegen sollten, wenn von einer Anpassung ausgegangen wird. Diese so genannten Konfidenzintervalle geben Ober- und Untergrenzen an, zwischen denen sich die beobachteten relativen Häufigkeiten der Ziffern aller Ziffern im Fall der Übereinstimmung mit der Benford-Verteilung bewegen müssen. Liegen die beobachteten relativen Häufigkeiten einer Ziffer außerhalb ihres Konfidenzintervalls, so stellt dies eine signifikante Abweichung zum Benford-Profil dar, was weitere Analysen rechtfertigen würde.
Mindestanforderungen
Wichtig zur Durchführung des Chi2-Tests ist die Tatsache, dass an die Größe der zu untersuchenden Zahlenmenge Mindestanforderungen gestellt werden. Normalerweise werden für den Chi2-Test mindestens 110 vorliegende Fälle gefordert. Aufgrund der geringen Wahrscheinlichkeiten für das Auftreten der Ziffer 9 von nur 0,0457575 besteht die Mindestanzahl von Zahlen in der Menge aus rund 200 Zahlen. Somit wird deutlich, dass sich die Ergebnisse von Benford auf die Untersuchung größerer Zahlenmengen beziehen. Dies schmälert ihre Relevanz für die Praxis in keiner Weise, denn je größer die zu untersuchende Zahlenmenge ist, desto schwieriger ist diese a...