Boxplot < math. Statistik < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) reagiert/warte auf Reaktion | Datum: | 15:04 So 22.06.2008 | Autor: | wolfe |
Hallo.
Ich verstehe nicht wirklich, wo bei einem Boxplot Ausreißer herkommen.
Angenommen, ich habe einen Stichprobe n = 10 mit den Werten
0 1 2 3 4 5 6 7 8 9
Dann ist der untere Whisker doch bei 0 und der obere bei 9.
Wennn ich 0 1 2 3 4 5 6 7 8 999 hätte, wäre der untere W. bei 0 und der obere Whisker bei 999
Kann aber doch eigentlich nicht sein, weil sonst hätte ich ja niemals einen Ausreißer? Ein Ausreißer hatten wir jedoch auch so wie auf Wikipedia definiert Wikipedia
Sprich genau das, was nicht direkt im Boxplot drinliegt. Aber wenn wir den oberen und unteren Whisker als größten und kleinsten Wert der Stichprobe bezeichnen, kanns doch keine Ausreißer geben?
Ich hoffe, ihr könnt mir das Problem beseitigen :(
Viele Grüße,
wolfe
|
|
|
|
> Hallo.
> Ich verstehe nicht wirklich, wo bei einem Boxplot
> Ausreißer herkommen.
> Angenommen, ich habe einen Stichprobe n = 10 mit den
> Werten
> 0 1 2 3 4 5 6 7 8 9
>
> Dann ist der untere Whisker doch bei 0 und der obere bei
> 9.
>
> Wennn ich 0 1 2 3 4 5 6 7 8 999 hätte, wäre der untere W.
> bei 0 und der obere Whisker bei 999
> Kann aber doch eigentlich nicht sein, weil sonst hätte ich
> ja niemals einen Ausreißer?
>
> Ich hoffe, ihr könnt mir das Problem beseitigen :(
>
> Viele Grüße,
> wolfe
hallo wolfe,
ich hab rasch bei wiki reingeschaut und folgendes
gefunden:
Als Box wird das durch die Quartile bestimmte Rechteck bezeichnet. Sie umfasst 50 % der Daten. Durch die Länge der Box ist der Interquartilsabstand (interquartile range, IQR) abzulesen. Dies ist ein Maß der Streuung, welches durch die Differenz des oberen und unteren Quartils bestimmt ist.
Als Whisker oder Fühler werden die horizontalen/vertikalen Linien bezeichnet. Die Länge der Whisker beträgt maximal das 1,5-fache des Interquartilsabstands (1,5×IQR) und wird immer durch einen Wert aus den Daten bestimmt. Werte, die über dieser Grenze liegen, werden separat in das Diagramm eingetragen und als Ausreißer bezeichnet. Gibt es keine Werte außerhalb der Whisker, so wird die Länge des Whiskers durch den maximalen bzw. minimalen Wert festgelegt.
Häufig werden Ausreißer, die zwischen 1,5×IQR und 3×IQR liegen als milde Ausreißer bezeichnet und Werte, die über 3×IQR liegen als extreme Ausreißer. Diese werden dann auch unterschiedlich im Diagramm gekennzeichnet.
Grundlage ist die Definition von John W. Tukey.
ich weiss natürlich nicht, von welcher Definition von
"Ausreisser" ihr ausgegangen seid...
LG al-Chwarizmi
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 15:26 So 22.06.2008 | Autor: | wolfe |
Hallo
Das hilft mir aber leider nicht.
Wikipedia habe ich mir doch auch schon angeguckt.
> ich weiss natürlich nicht, von welcher Definition von
> "Ausreisser" ihr ausgegangen seid...
Das ist es ja, dazu hatten wir keine richtige Definition. Sondern der Ausreißer ist das, was eben nicht im Boxplot drin liegt, wenn jetzt aber der kleinste Wert meiner Stichprobe der untere Whisker ist und der größte Wert der Stichprobe der obere Whisker, wo kommen dann die Ausreißer her?
Wenn du da ein Beispiel liefern könntest (vielleicht mit 5 Werte, also z. B. 1 2 3 4 5), das würde mir helfen
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 16:11 So 22.06.2008 | Autor: | M.Rex |
Hallo
Nehmen wir mal die Datenreihe 1,2,3,4,5,6,7,8,9,10,55
Dann ist das untere Quartil bei 3, das obere Quartil bei 9.
Also ist der sog. Interquartilsabstand 6.
Laut der Definition der Whisker
(Wikipedia: "Als Whisker oder Fühler werden die horizontalen/vertikalen Linien bezeichnet. Die Länge der Whisker beträgt maximal das 1,5-fache des Interquartilsabstands (1,5×IQR) und wird immer durch einen Wert aus den Daten bestimmt. Werte, die über dieser Grenze liegen, werden separat in das Diagramm eingetragen und als Ausreißer bezeichnet. Gibt es keine Werte außerhalb der Whisker, so wird die Länge des Whiskers durch den maximalen bzw. minimalen Wert festgelegt.") ist die Maximallänge dieser Whisker 6*1,5=9.
Also ist der untere Whisker bei 3-9=-6, was aber aufgrund der Tatsache, dass der kleinste Wert innerhalb liegt, auf 1 erhöht wird.
Interessanter ist jetzt der obere Whisker. Dieser läge theoretisch bei maximal 9+9=18, da aber der nächsttiefere Wert erst bei 10 erreicht wird, liegt dieser bei 10. die 55 wäre dann ein sog. extremer Ausreisser.
Marius
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:56 Mi 25.06.2008 | Autor: | wolfe |
Hallo M.Rex
Danke für deine Antwort. Jetzt habe ich es geschnallt!
Grüße,
wolfe
|
|
|
|
|
> Hallo
> Das hilft mir aber leider nicht.
> Wikipedia habe ich mir doch auch schon angeguckt.
>
> > ich weiss natürlich nicht, von welcher Definition von
> > "Ausreisser" ihr ausgegangen seid...
>
> Das ist es ja, dazu hatten wir keine richtige Definition.
> Sondern der Ausreißer ist das, was eben nicht im Boxplot
> drin liegt, wenn jetzt aber der kleinste Wert meiner
> Stichprobe der untere Whisker ist und der größte Wert der
> Stichprobe der obere Whisker,
(dies ist eben nach der Definition von Tukey nicht so !)
> wo kommen dann die Ausreißer
> her?
Dann liegt das Problem möglicherweise beim Prof, der es
versäumt hat, eine klare Definition für die Whiskerlängen
und für den Begriff "Ausreisser" zu geben. Zeige ihm ev.
einmal den wiki-Artikel !
LG
|
|
|
|