Auftreten 1. Ziffer
Benford veröffentlichte daraufhin 1938 seinen Artikel ”The law of anomalous numbers”, in dem er erneut die ihm bis dahin unbekannte Formel von Newcomb aufstellte und die heute als Gesetz von Benford oder auch „Benford’s Law” bekannt ist:
Ziffer |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Wahrscheinlichkeit für das Auftreten als 1. Ziffer |
0,301 |
0,176 |
0,125 |
0,097 |
0,079 |
0,067 |
0,058 |
0,051 |
0,046 |
Abb. 1: Wahrscheinlichkeitsverteilung für das Auftreten der 1. Ziffer
Wie man an dem Diagramm in Abb. 1 unschwer erkennt, liegt also tatsächlich eine deutliche Abweichung zwischen der vermuteten Gleichverteilung (mit Auftretenswahrscheinlichkeit p = 1/9) für die erste Ziffer in der Zahlenmenge und der von Benford postulierten Wahrscheinlichkeit vor. Insbesondere fällt auf, dass in rund 48 % der Fälle eine 1 oder eine 2 als erste Ziffer einer Zahl auftritt.
Benford-Mengen
Wie der nächste Abschnitt zeigen wird, gilt das Gesetz von Benford nicht in allen Zahlenmengen; Mengen von Zahlen, in der die Ziffern der Verteilung nach Benfords Gesetz genügen, werden daher als Benford-Mengen bezeichnet. In solchen Benford-Mengen gibt das Gesetz nicht nur Auskunft über die Wahrscheinlichkeit des Auftretens der ersten Ziffer, sondern es lassen sich sogar die Wahrscheinlichkeiten für das Auftreten von Ziffernfolgen am Anfang der Zahlen aufstellen:
p(Z1 = 1) = log (1 + 1/1) = 0,301 p(Z1 = 7) = log (1 + 1/7) = 0,058 p(Z1Z2 = 23) = log (1 + 1/23) = 0,018 p(Z2 = 3) = p(13) + p(23) +...+ p(93) = 0,104 |
wobei Z1 die erste Ziffer der Zahl und Z2 die zweite Ziffer der Zahl bezeichnen soll; allgemein bezeichnet Zi die i-te Ziffer einer Zahl und somit Z1Z2 diejenige Zahl, die mit der Ziffer Z1 beginnt und als zweite Ziffer Z2 besitzt.
Ziffernkombinationen
Das Gesetz von Benford ist nicht nur auf die Berechnung der Wahrscheinlichkeiten für die ersten Ziffern von Zahlen beschränkt, die Formel eignet sich ebenso für die Ermittlung der Auftretenswahrscheinlichkeiten aller zweistelligen Ziffernkombinationen, die am Anfang einer Zahl stehen können. Von diesen zweistelligen Ziffernkombinationen gibt es genau 90 Stück, nämlich die Zahlen 10, 11, 12, ... , 99.
Abb. 2: Auftreten der ersten beiden Ziffern
Wie man erkennt, bewegen sich die Wahrscheinlichkeiten für das Auftreten der ersten beiden Ziffern einer Zahl innerhalb einer Benford-Menge zwischen
log (1 + 1/10) = 0,0414 |
für die Ziffernkombination 10 |
und |
|
log (1 + 1/99) = 0,0048 |
für die Ziffernkombination 99. |
Wie man aus dem Diagramm in Abb. 2 erkennt, besitzen die Wahrscheinlichkeiten für das Auftreten der Zahlen 10 bis 99 am Anfang der Zahlen einer Benford-Menge das gleiche Profil, wie dies schon für die ersten Ziffern bekannt ist. Allerdings sind die Höhen der jeweiligen Wahrscheinlichkeiten für die Ziffernkombinationen sehr viel geringer, denn im Gegensatz zu den nur 9 Ziffern für die erste Stelle hat man es nun mit 90 möglichen Ziffernkombinationen zu tun.
Negative Zahlen
Dabei ist anzumerken, dass Untersuchungen gezeigt haben, dass die Überlegungen nicht nur auf positive Zahlen beschränkt sind, denn im Fall von negativen Zahlen in der zu untersuchenden Zahlenmenge kann zu deren Absolutbeträge übergegangen werden. So wurde etwa im Fall der Analyse von Umsatzsteuererklärungen, in denen auch negative Zahlen vorkommen können, nachgewiesen, dass nach Übergang zu den Absolutbeträgen der auftretenden Zahlen das Benford-Profil weiterhin nachgewiesen werden konnte, d.h., das Auftreten negativer Zahlen in den Zahlenmengen stellt kein prinzipielles Problem dar.