Ziffernverteilung
Wird man gefragt, wie die Verteilung der Ziffern in großen Zahlenmengen wohl aussehen müsste, so würde die große Mehrheit der Befragten ohne lange zu zögern antworten, dass alle Ziffern in Form einer Gleichverteilung auftreten, denn schließlich weiß man etwa von den wöchentlich gezogenen Lottozahlen, dass, über längere Zeiträume betrachtet, alle Zahlen etwa gleich häufig erscheinen. Dies bedeutet, dass an der ersten Stelle einer Zahl die Ziffern 1 bis 9 mit gleicher Auftretenswahrscheinlichkeit erscheinen müssten, während an allen höheren Stellen der Zahl die Ziffern 0 bis 9 ebenfalls gleich häufig anzutreffen sein müssten, d.h. vermutete Auftretenswahrscheinlichkeit pro Ziffer:
erste Stelle: |
p = 1/9 = 0,1111 |
(Ziffern 1, 2, ... , 9) |
höhere Stelle: |
p = 1/10 = 0,10 |
(Ziffern 0, 1, ... , 9) |
Somit stellt die zu vermutende Wahrscheinlichkeit für das Auftreten einer bestimmten Ziffer in einer Zahl eine Gleichverteilung dar, wobei die Wahrscheinlichkeiten zwischen der ersten Ziffer und den Ziffern höherer Stellen leicht unterschiedlich sind.
Gesetz von Newcomb
Bis zur Entdeckung des Taschenrechners vor ca. 50 Jahren nutzte man für Berechnungen aller Art Logarithmentafeln, die dann nach jahrelangem Gebrauch entsprechend abgenutzt waren, und zwar so, dass die vorderen Seiten schmutziger schienen als die hinteren, d.h., als hätten sich die Benutzer bevorzugt für die niedrigen Zahlen interessiert. Dieses überraschende Phänomen, was der vermuteten Gleichverteilung aller Ziffern widerspricht, bewog den amerikanischen Astronomen Simon Newcomb 1881, seine Beobachtungen in einem Artikel im American Journal of Mathematics zu veröffentlichen und er formulierte sogar ein Gesetz über das Auftreten der ersten Ziffern:
Die Wahrscheinlichkeit p(d) dafür, dass eine beliebige Zahl mit der Ziffer d beginnt, ist gegeben durch die Formel p(d) = log(1 + l/d); allgemeiner gilt sogar in jedem Zahlensystem zur Basis b: p(d) = ln(1+1/d)/ln(b). Im Dezimalsystem mit der Basis b = 10 ergibt sich die erste Formel, wobei log den dekadischen Logarithmus bezeichnet.
Frank Benford
Newcombs merkwürdiges Gesetz geriet lange in Vergessenheit, da wohl niemand die Tragweite seiner Entdeckung erkannte. Erst ein halbes Jahrhundert später im Jahre 1920 wiederholte der amerikanische Physiker Frank Benford, der damals in Diensten der General Electric Company stand, Newcombs Entdeckung erneut aufgrund seiner Arbeit mit abgegriffenen Logarithmentafeln. Benford beließ die Überprüfung des Gesetzes über das Auftreten der ersten Ziffern aber nicht bei der Analyse der Logarithmentafeln, sondern er stürzte sich auf alles, was die Statistik hergab: Luftdruckmessungen, die Ergebnisse der amerikanischen Baseball-Liga, Atomgewichte, Bevölkerungszahlen, die Höhe der Stromrechnungen auf den Solomon Islands, Artikel aus dem Reader"s Digest, wobei er insgesamt über 20.000 Einzelbeobachtungen auswertete, die alle dasselbe ergaben: Die 1 lag immer in ca. 30 % aller Fälle vorn, gefolgt von der 2 mit 18 % der Fälle usw.