Test der Anfangsziffern
Ein weiterer wichtiger Test beruht auf der Auswertung der ersten beiden Anfangsziffern in der Zahlenmenge. Er geht direkt auf Mark Nigrini zurück und wird häufig als Reihentest von Nigrini bezeichnet. Dabei wird nicht wie im Chi2-Anpassungstest die Differenz zwischen empirischen und theoretischen Häufigkeiten untersucht, sondern aufgrund eines Vergleichs zwischen den Mittelwerten der beobachteten und der theoretischen Werte kann entschieden werden, ob die Eigenschaften einer Benford-Menge erfüllt werden. Darüber hinaus kann an der Testgröße auch abgelesen werden, ob die Zahlen der untersuchten Zahlenmenge eher herauf- oder eher heruntergerechnet wurden. Wichtig für die Anwendung des Reihentests ist die Anforderung, dass die zu testende Zahlenmenge mindestens aus 500 Zahlen bestehen muss, da sonst keine verlässlichen Ergebnisse gewonnen werden können. Praktische Untersuchungen haben aber gezeigt, dass auch schon mit Zahlenmengen mit nur rund 100 Zahlen aussagekräftige Ergebnisse gewonnen werden können. Insgesamt wird aber auch hier wieder deutlich, dass sich die Ergebnisse von Benford auf größere Zahlenmengen beziehen.
Nigrinis Reihentest
Da der Reihentest die ersten beiden Ziffern in der Zahlenmenge prüft, sind zuvor alle Zahlen der Zahlenmenge, die zwischen –10 und 10 liegen aus der Menge zu eliminieren. Den Ausgangspunkt des Reihentests bildet dann der theoretische zu erwartende Mittelwert EM (expected mean). Diesen erhält man aus den ersten beiden Ziffern, wenn man vom Vorliegen einer Benford-Menge ausgeht; dabei berechnet sich der Wert EM gemäß der Formel:
EM = 90 / (N x (10 ^ (1/N) – 1)), |
wobei N die Anzahl der Zahlen der Zahlenmenge darstellt. Für sehr großes N konvergiert EM gegen 39,086.
Distorsion-Faktor
Dieser erwartete Wert wird verglichen mit dem beobachteten Mittelwert AM (actual mean) aus der Zahlenmenge, den man erhält, indem man den Mittelwert über alle in der Zahlenmenge auftretenden Ziffernkombinationen bildet, d.h. deren Summe berechnet und diese Summe dann durch die Mächtigkeit der Zahlenmenge teilt. Liegt eine Benford-Menge vor, so sollten EM und AM nicht zu weit auseinander liegen, sodass man die standardisierte Abweichung als Testgröße (Distorsion-Faktor) verwendet:
Da der Distorsion-Faktor aus einem Mittelwert (AM) und einer Konstante (EM) gebildet wird, ist die Testgröße DF näherungsweise normalverteilt und bewegt sich im Falle einer Benford-Menge um den Wert null herum.
Unter- und Obergrenzen
Da man in der Praxis aufgrund zufälliger Einflüsse so gut wie nie den Idealfall antrifft, wird auch der Distorsion-Faktor DF in der Praxis so gut wie nie genau den Wert null annehmen, aber zu vorgegebenen Sicherheiten kann man Intervalle um den Idealwert null herum angeben, so genannte Konfidenzintervalle, in denen sich DF bewegen sollte, falls tatsächlich eine Benford-Menge vorliegt. Dabei wählt man in der Praxis meist ein Konfidenzintervall, in dem sich der Wert DF mit 95 % Sicherheit bewegt. Aufgrund der näherungsweisen Normalverteiltheit der Testgröße DF können die Unter- und die Obergrenze des Konfidenzintervalls aus der Mächtigkeit der Zahlenmenge N und der Standardabweichung von DF berechnet werden, sodass sich folgendes zugehörige Konfidenzintervall für den Distorsion-Faktor bei 95 % Sicherheit ergibt:
Untergrenze: |
- |
1,96 x 0,6382 / √ N |
Obergrenze: |
|
1,96 x 0,6382 / √ N |
d.h., die Testgröße DF muss sich im folgenden Konfidenzintervall bewegen:
-1,96 x 0,6382 / √ N ≤ DF ≤ 1,96 x 0,6382 / √ N. |
Darüber hinaus ist aus der Testgröße DF ablesbar, ob die Zahlen der Zahlenmenge im Vergleich zu einer idealen Benford-Menge eher herauf- oder eher herabgerechnet wurden:
Heraufrechnung: |
DF > 0 |
Herunterrechnung: |
DF < 0 |
So ist bei manipulierten Steuererklärungen eher mit einer Herunterrechnung, einem Wert DF < 0 zu rechnen, was sich mit den Erfahrungen deutscher und amerikanischer Steuerbehörden deckt.
Ergebnis bei Gleichverteilung
Abschließend sei darauf hingewiesen, dass im Falle der Gleichverteilung, wie dies bei einer dimensionslosen Zahlenmenge, die nicht Benfords Gesetz gehorcht, zu erwarten ist, der Erwartungswert für die ersten beiden Ziffern nicht in der Nähe der Zahl 39,086 liegt, sondern eher bei 55. Denn es gilt:
10 x 1/90 + 11 x 1/90 + ... + 99 x 1/90 = 55.
Somit ist bereits aus dem beobachteten Mittelwert für die ersten beiden Ziffern einer Zahlenmenge ersichtlich, ob es sich bei der Ziffernverteilung eher um eine Gleichverteilung oder eher eine Benford-Verteilung handelt.