Benfordsches Gesetz < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Wie lautet die Benfordsche Formel für mehrziffrige Zahlen bezogen auf ein Praxisbeispiel der Zahl 1111222? |
Hallo,
könnte mir jemand zu der Benfordschen Formel weiterhelfen, bitte.
Die Formel für die Ziffern 1 bis 9 lautet LOG10(1+1/d).
Die zugehörigen Wahrscheinlichekeiten ergeben dann die folgende Liste:
Ziffer p(d) = LOG10(1+1/Ziffer)
1 0,301
2 0,176
3 0,125
4 0,097
5 0,079
6 0,067
7 0,058
8 0,051
9 0,046
Summe 1,000
Welche Formel wende ich an wenn die Zahlen mehrere Ziffern haben?
Z.B. die Zahlen von 10 bis 20 oder die Zahl 1111222?
Wir haben bei der Zahl 1111222 vier Mal die 1 und drei Mal die 2.
Heißt das 4*0,301=1,204 und 3*0,176=0,528? Das würde dei der betrachteten Zahl für die Ziffer 1 zu einer relativen Häufigkeit von 1,204/1,732=0,6952 und für die Ziffer 2 zu einer relativen Häufigkeit von 0,528/1,732=0,3048 führen.
Oder gibt es vielleicht "DIE" Benfordsche Formal für mehrziffrige Zahlen.
Wenn ja, wie lautet die Formel und wie sähe der praktische Einsatz an der Zahl 1111222 aus?
Vielen Dank im voraus für jede Hilfe.
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 21:09 Sa 02.04.2011 | Autor: | leduart |
Hallo
einfach in wiki unter Benfordsches Gesetz nachschauen.
Gruss leduart
|
|
|
|
|
> Hallo
> einfach in wiki unter Benfordsches Gesetz nachschauen.
> Gruss leduart
>
Hab schon in Wiki nachgeschaut. Die dort angegebene Formel verstehe ich aber nicht ganz. Könnte mir die jemand an dem angegebenen Zahlenbeispiel erklären, bitte.
|
|
|
|
|
> Hab schon in Wiki nachgeschaut. Die dort angegebene Formel
> verstehe ich aber nicht ganz. Könnte mir die jemand an dem
> angegebenen Zahlenbeispiel erklären, bitte.
Hallo,
du meinst wohl die Formel in folgendem Text:
"Gegeben sei eine Menge von Zahlen, die dem benfordschen Gesetz gehorcht. Dann ist die Wahrscheinlichkeit des Auftretens der Ziffer d zur Basis B an der n-ten Stelle (gezählt von vorne, startend mit 0):
[mm] p_n(d)= \sum_{k=\lfloor B^{n-1}\rfloor}^{B^{n}-1} \log_B \left(1+ \frac{1}{k\cdot B + d} \right) [/mm]
wobei [mm] \lfloor.\rfloor [/mm] die Gaußklammer bezeichnet."
Quelle
Damit kann man zum Beispiel berechnen, dass an der
dritten Stelle von vorn, also mit n=2 (!!) die Ziffer d=0
mit der Wahrscheinlichkeit [mm] p_2(0)\approx0.10178 [/mm] erscheint.
An derselben Stelle einer Zahl (immer aus einer Menge,
welche die "Benford-Eigenschaft" hat) steht die Ziffer 9
mit der Wahrscheinlichkeit [mm] p_2(9)\approx0.09827 [/mm] .
In diesem Beispiel führt die Berechnung auf die Summe:
[mm] $\summe_{k=10}^{99}log_{10}\left(1+\frac{1}{k*10+9}\right)$
[/mm]
Um nochmals auf dein vorgeschlagenes Beispiel mit der
Ziffernfolge "1111222" einzugehen: Falls das von irgend-
welchem Interesse sein sollte, könnte man natürlich auch
berechnen, mit welcher Wahrscheinlichkeit eine Zahl aus
einer "Benford-Menge" mit dieser Ziffernfolge beginnt.
Zu diesem Zweck würde ich die gesamte 7-stellige Folge
als eine "Superziffer" in einem Zahlensystem mit der
Basis [mm] B=10^7 [/mm] betrachten. In die Formel einzusetzen
wären also n=0, B=10000000 und d=1111222 .
Ergebnis:
[mm] $\summe_{k=0}^{0}log_{(10^7)}\left(1+\frac{1}{k*10^7+1111222}\right)\ [/mm] =\ [mm] \frac{1}{7}*log_{10}\left(1+\frac{1}{1111222}\right)\ \approx 5.58*10^{-8}$
[/mm]
LG Al-Chwarizmi
|
|
|
|
|
Die Idee, eine 7-stellige Ziffernfolge als "Superziffer"
im Zahlensystem mit der Basis [mm] B=10^7 [/mm] zu betrachten,
ist im vorliegenden Zusammenhang möglicherweise
doch etwas problematisch. Der Grund: bei der Dar-
stellung einer Zahl für die Benford-Klassifizierung
kommt eine führende Null oder gar eine führende
Nullen-Sequenz nicht in Frage. Betrachtet man jetzt
die 7-stelligen Ziffernfolgen von "0000000" bis "9999999"
als "Superziffern", so werden die Folgen von "0000001"
bis "0999999" nicht korrekt behandelt ...
Eine nähere Untersuchung drängt sich deshalb auf.
LG Al-Chw.
|
|
|
|
|
Eine interessante Arbeit zum Thema, welche auch die korrekte
Lösung für die Frage nach der Wahrscheinlichkeit, dass
eine beliebige Ziffernsequenz vorne steht, findet man da:
http://www.educ.ethz.ch/unt/um/mathe/ana/benford
Für das Beispiel "1111222" erhält man [mm] 3.908*10^{-7}
[/mm]
LG Al-Chw.
|
|
|
|
|
> Eine interessante Arbeit zum Thema, welche auch die
> korrekte
> Lösung für die Frage nach der Wahrscheinlichkeit, dass
> eine beliebige Ziffernsequenz vorne steht, findet man da:
>
> http://www.educ.ethz.ch/unt/um/mathe/ana/benford
Super!!! Vielen Dank! Ich brauche leider noch etwas Zeit mir die Publikation genau durchzulesen. Die mathematischen Formeln könnten dann eventuell noch Fragen für mich aufwerfen.
Könntest Du mir vielleicht für deine Berechnung:
> Für das Beispiel "1111222" erhält man [mm]3.908*10^{-7}[/mm]
die einfache Formel hinschreiben, bitte. Ich habe eine Liste von Zahlen bei denen ich sie anwenden soll.
Vielen Dank im voraus.
LG einstudent
PS: Wenn es nicht zu persönlich ist, was arbeitest Du in der Schweiz?
|
|
|
|
|
> > Eine interessante Arbeit zum Thema, welche auch die
> > korrekte
> > Lösung für die Frage nach der Wahrscheinlichkeit,
> dass
> > eine beliebige Ziffernsequenz vorne steht, findet man
> da:
> >
> > http://www.educ.ethz.ch/unt/um/mathe/ana/benford
>
> Super!!! Vielen Dank! Ich brauche leider noch etwas Zeit
> mir die Publikation genau durchzulesen. Die mathematischen
> Formeln könnten dann eventuell noch Fragen für mich
> aufwerfen.
>
>
> Könntest Du mir vielleicht für deine Berechnung:
> > Für das Beispiel "1111222" erhält man [mm]3.908*10^{-7}[/mm]
> die einfache Formel hinschreiben, bitte. Ich habe eine
> Liste von Zahlen bei denen ich sie anwenden soll.
>
> Vielen Dank im voraus.
>
> LG einstudent
Hallo einstudent,
soeben ist mir klar geworden, wie man das Ganze wirklich
sehr einfach verstehen kann. Am schönsten wird es klar,
wenn man eine logarithmische Rechenscheibe (oder einen
Rechenschieber) betrachtet.
Rechenscheibe
Datenmaterial, das dem Benford-Gesetz entspricht,
ergibt eine Gleichverteilung entlang dem Umfang der
Rechenscheibe. Setzen wir den Umfang der Rechen-
scheibe gleich 1=log(10)-log(1), so hat z.B. das
Bogenstück, welchem Zahlen entsprechen, die mit
der Anfangsziffer 3 beginnen, die Länge
$\ [mm] log(3.99999...)-log(3)=log(4)-log(3)=log\left(\frac{4}{3}\right)$ [/mm] .
Dies ist auch exakt die Wahrscheinlichkeit, dass eine
"Benford-Zahl" mit der Ziffer 3 beginnt.
Analog ist etwa die W'keit, dass eine solche Zahl mit
der Ziffernfolge "237" beginnt, gleich
$\ [mm] log(2.38)-log(2.37)=log(238)-log(237)=log\left(\frac{238}{237}\right)$ [/mm] .
Und so weiter ... wirklich ganz simpel !
LG Al-Chw.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 11:23 Mi 06.04.2011 | Autor: | einstudent |
Wow !!!
Echt beeindruckend, genau das habe ich noch gesucht für die Herleitung der Formel :)
Herzlichen Dank und die Besten Wünsche für Dich, Al-Chwarizmi.
LG einstudent
|
|
|
|
|
Wie errechne ich die relative Häufigkeit nach Benford bei den Zahlen von 10 bis 20?
10
11
12
13
14
15
16
17
18
19
20
Für die 1 ergibt sich nach Benford log10(1+1/1)=0,301 und für die 2 log10(1+1/1)=0,176.
Da ich hier zehn Mal die 1 und ein Mal die 2 habe ergibt dies 3,01 und 0,176 und als Summe 3,19
Daraus folgt eine relative Häufigkeit für die 1 von 3,01/3,19=0,94 und für die 2 von 0,176/3,19=0,06.
Ist meine Vorgehensweise richtig?
|
|
|
|
|
> Wie errechne ich die relative Häufigkeit nach Benford bei
> den Zahlen von 10 bis 20?
>
> 10
> 11
> 12
> 13
> 14
> 15
> 16
> 17
> 18
> 19
> 20
>
> Für die 1 ergibt sich nach Benford log10(1+1/1)=0,301 und
> für die 2 log10(1+1/1)=0,176.
> Da ich hier zehn Mal die 1 und ein Mal die 2 habe ergibt
> dies 3,01 und 0,176 und als Summe 3,19
> Daraus folgt eine relative Häufigkeit für die 1 von
> 3,01/3,19=0,94 und für die 2 von 0,176/3,19=0,06.
> Ist meine Vorgehensweise richtig?
Entschuldige, aber ich verstehe jetzt nicht recht, um
welche relativen Häufigkeiten es hier jetzt gehen soll.
Grundsätzlich geht es ja bei diesem Thema immer um
die Frage: Mit welcher Wahrscheinlichkeit beginnt eine
Zahl (aus einer Grundmenge mit gewissen recht ein-
schränkenden Bedingungen, sagen wir einmal "Benfordi-
zität") mit einer bestimmten Ziffernfolge ?
Mich irritiert, dass du jetzt anscheinend wieder nach
Wahrscheinlichkeiten (oder rel. Häufigkeiten) einzelner
Zahlenwerte fragst.
Vielleicht gibst du uns doch einmal noch genau an, welchen
Zweck du mit deinen Fragen verfolgst ...
LG Al-Chw.
|
|
|
|
|
> Vielleicht gibst du uns doch einmal noch genau an, welchen
> Zweck du mit deinen Fragen verfolgst ...
Der Zweck ist die relative Häufigkeit nach Benford aus einer großen Menge von Zahlen zu ermitteln. Z.B. Fibonacci, geometrische Folge etc. Dafür habe ich wahllos eine recht überschaubare Zahlenmenge von elf Zahlen von 10 bis 20 gewählt. In der kommt dann zehn Mal die 1 als führende Ziffer vor und ein Mal die 2.
Ich habe noch nicht genau verstanden nach welcher Berechnungsformel, das heißt wie man dabei konkret vorgehen muß um aus einer Menge von mehreren Zahlen "nach Benford" die relativen Häufigkeiten der führenden Ziffern zu ermitteln.
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:20 Do 07.04.2011 | Autor: | leduart |
Hallo
wenn du willkürlich irgendwoher 10 Zahlen nimmst, warum sollten die ne logarithmische Verteilung haben?
umgekehrt, mit einem Datensatz von 10 Zahlen kannst du wenig über ihre Verteilung sagen.
was willst du also wirklich?Wenn du "willkürlich die 10 zahlen zw. 90 und 100 nimmst kommt die 9 eben 9 mal, die 1 nur einmal vor.
Es muss doch nen Grund geben, warum du bestimmte Folgen von denen du redest ein bedfordverteilung haben sollten. die Daten von denen du sprichst sind doch nicht statistisch?
gruss leduart
|
|
|
|
|
> Hallo
> wenn du willkürlich irgendwoher 10 Zahlen nimmst, warum
> sollten die ne logarithmische Verteilung haben?
> umgekehrt, mit einem Datensatz von 10 Zahlen kannst du
> wenig über ihre Verteilung sagen.
> was willst du also wirklich?Wenn du "willkürlich die 10
> zahlen zw. 90 und 100 nimmst kommt die 9 eben 9 mal, die 1
> nur einmal vor.
> Es muss doch nen Grund geben, warum du bestimmte Folgen
> von denen du redest ein bedfordverteilung haben sollten.
> die Daten von denen du sprichst sind doch nicht
> statistisch?
> gruss leduart
>
Entschuldigung für meine Unwissenheit.
Der einzige Grund meiner Postings ist, dass ich das Benfordsche Gesetz verstehen möchte. Das habe ich dank der Antworten inzwischen auch für die (nicht statistischen) Zahlen von 1 bis 9: log10(1+1/d). Wie man diese Formel andendet oder WELCHE BENFORDFORMEL MAN BEZUTZT WENN EINE FÜHRENDE ZIFFER "MEHR ALS EIN MAL" AUFTRITT weis ich immer noch nicht.
Ob ich die Zahlenmenge von 10 bis 20 oder die ersten 10000 dann statistischen Fibonaccizahlen und deren Vorkommen poste ändert doch nichts an der reinen Formel die ich darauf anwenden müßte. Oder etwa doch?
|
|
|
|
|
> > Hallo
> > wenn du willkürlich irgendwoher 10 Zahlen nimmst,
> warum
> > sollten die ne logarithmische Verteilung haben?
> > umgekehrt, mit einem Datensatz von 10 Zahlen kannst du
> > wenig über ihre Verteilung sagen.
> > was willst du also wirklich?Wenn du "willkürlich die
> 10
> > zahlen zw. 90 und 100 nimmst kommt die 9 eben 9 mal, die 1
> > nur einmal vor.
> > Es muss doch nen Grund geben, warum du bestimmte Folgen
> > von denen du redest ein bedfordverteilung haben sollten.
> > die Daten von denen du sprichst sind doch nicht
> > statistisch?
> > gruss leduart
> >
>
>
> Entschuldigung für meine Unwissenheit.
>
> Der einzige Grund meiner Postings ist, dass ich das
> Benfordsche Gesetz verstehen möchte. Das habe ich dank der
> Antworten inzwischen auch für die (nicht statistischen)
> Zahlen von 1 bis 9: log10(1+1/d). Wie man diese Formel
> andendet oder WELCHE BENFORDFORMEL MAN BEZUTZT WENN EINE
> FÜHRENDE ZIFFER "MEHR ALS EIN MAL" AUFTRITT weis ich immer
> noch nicht.
>
> Ob ich die Zahlenmenge von 10 bis 20 oder die ersten 10000
> dann statistischen Fibonaccizahlen und deren Vorkommen
> poste ändert doch nichts an der reinen Formel die ich
> darauf anwenden müßte. Oder etwa doch?
Hallo einstudent,
das sogenannte "Benfordsche Gesetz" oder "Newcomb-Benfordsche
"Gesetz" beschreibt die Häufigkeiten führender Ziffernfolgen
nur dann einigermaßen richtig, wenn die Menge der betrachteten
Daten ganz bestimmte Voraussetzungen statistischer Art erfüllt.
Es einfach auf beliebige Zahlenmengen anwenden zu wollen,
macht deshalb keinen Sinn. Es ist auch nicht ganz leicht, eine
"allgemeine Regel" aufzustellen, welche einem zeigen würde, in
welchen wirklich aus der Praxis gegriffenen Fällen das "Gesetz"
gute Näherungen liefert und welche nicht gerade das logarith-
mische Verteilungsgesetz selber fordert, auf welchem die Formel
theoretisch begründet wird.
Umso erstaunlicher ist es, dass es trotzdem schon gelungen ist,
z.B. Steuer- und Bilanzbetrüger auffliegen zu lassen, indem
man in umfangreichem Datenmaterial große Abweichungen
vom Benford-Gesetz feststellte, das eigentlich zumindest annä-
hernd hätte erfüllt sein sollen. Derartige Untersuchungen erfor-
dern allerdings sehr eingehende statistische Analysen.
Eine interessante Übung wäre vielleicht folgende Aufgabe:
Aufgabe | Wie kann man auf einfache Art Mengen von Zahlen
erzeugen, bei denen das Benford-Gesetz annähernd
erfüllt ist ? |
LG Al-Chw.
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:24 Fr 08.04.2011 | Autor: | leduart |
Hallo
vielleicht guckst du dir das mal an:hier
gruss leduart
|
|
|
|
|
Hallo,
soweit ich weiß, geht es bei dem "Benfordschen Gesetz"
in erster Linie um die statistische Verteilung der Werte
der ersten Stelle von Dezimalzahlen in statistischem
Datenmaterial. Eine Ausdehnung auf weitere Dezimalen
macht nur bei ausreichendem Datenmaterial (je mehr
betrachtete Dezimalen, desto mehr Datenmaterial, und
zwar nicht zu knapp) Sinn.
Eine "benfordsche Betrachtung" an einer einzelnen vor-
gegebenen Zahl wie etwa 1111222 ist absolut unsinnig.
LG Al-Chw.
|
|
|
|