Minimierung quadratische Abwei < Wahrscheinlichkeitstheorie < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Es seien X und Y zwei ZV auf einem diskreten W'raum [mm] (\Omega, \mathcal{P}(\Omega),P) [/mm] mit
E[X], E[Y], [mm] E[X^2], E[Y^2] [/mm] < [mm] \infty [/mm] und V[X]=1.
Zeige: Die quadratische Abweichung [mm] E[(Y-(a+bX))^2] [/mm] zwischen Y und der affinen Funktion a+bX von X wird minimiert für b=Cov(X,Y) und a=E[Y-bX].
Was bedeutet dies im Fall, wenn X,Y unkorreliert sind? |
Hallo!
Ich komme bei dieser Aufgabe einfach nicht klar.
Ich weiß, dass Cov(X,Y)=E((X-E(X))(Y-E(Y))).
b=Cov(X,Y)=E((X-E(X))(Y-E(Y)))
a=E[Y-E((X-E(X))(Y-E(Y)))X]
=> [mm] E[(Y-(E[Y-(E((X-E(X))(Y-E(Y)))X)]+E((X-E(X))(Y-E(Y)))X))^2]
[/mm]
Und nun?
Vielen Dank für Eure Hilfe!
Phillip
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
> Es seien X und Y zwei ZV auf einem diskreten W'raum
> [mm](\Omega, \mathcal{P}(\Omega),P)[/mm] mit
> E[X], E[Y], [mm]E[X^2], E[Y^2][/mm] < [mm]\infty[/mm] und V[X]=1.
> Zeige: Die quadratische Abweichung [mm]E[(Y-(a+bX))^2][/mm]
> zwischen Y und der affinen Funktion a+bX von X wird
> minimiert für b=Cov(X,Y) und a=E[Y-bX].
> Was bedeutet dies im Fall, wenn X,Y unkorreliert sind?
> Hallo!
> Ich komme bei dieser Aufgabe einfach nicht klar.
> Ich weiß, dass Cov(X,Y)=E((X-E(X))(Y-E(Y))).
>
> b=Cov(X,Y)=E((X-E(X))(Y-E(Y)))
>
> a=E[Y-E((X-E(X))(Y-E(Y)))X]
>
> =>
> [mm]E[(Y-(E[Y-(E((X-E(X))(Y-E(Y)))X)]+E((X-E(X))(Y-E(Y)))X))^2][/mm]
>
> Und nun?
Sei [mm] $\hat{Y} [/mm] := a+bX$ der lineare Schätzwert für $Y$ aufgrund des Wertes von $X$ sowie [mm] $\Delta^2 [/mm] := [mm] \mathrm{E}[(Y-\hat{Y}))^2]$ [/mm] die zu minimierende mittlere quadratische Abweichung. Dann ist,
[mm]\Delta^2 = \mathrm{V}[Y-\hat{Y}]+\mathrm{E}[Y-\hat{Y}]^2[/mm]
Da beide Summanden [mm] $\geq [/mm] 0$ sind, wird diese Summe genau dann minimal, wenn beide Summanden minimal werden. (Und man darf die beiden Summanden getrennt minimieren, weil die Varianz für jede Z'variable von ihrem Erwartungswert unabhängig ist.)
Der zweite Summand, [mm] $\mathrm{E}[Y-\hat{Y}]^2$, [/mm] wird minimal für [mm] $\mathrm{E}[Y-\hat{Y}]=0$, [/mm] woraus [mm] $a=\mathrm{E}[Y-bX]$ [/mm] folgt.
Bei dieser Wahl von $a$ ist also
[mm]\Delta^2 = \mathrm{V}[Y-\hat{Y}][/mm]
Drücke nun diese Varianz mit Hilfe des Parameters $b$ und [mm] $\mathrm{Cov}(X,Y)$ [/mm] aus. Ergänze diesen Term quadratisch so, dass $b$ nur noch in einem Glied der Form [mm] $\big(b-\mathrm{Cov}(X,Y)\big)^2$ [/mm] auftritt. Dann ist klar, dass [mm] $\Delta^2$ [/mm] minimal wird, wenn zudem noch [mm] $b=\mathrm{Cov}(X,Y)$ [/mm] gewählt wird.
|
|
|
|
|
Hallo!
Danke für Deine Antwort.
So ganz ist der Groschen aber noch nicht bei mir gefallen.
Könntest Du mir noch etwas weiterhelfen?
Danke!
Phillip
|
|
|
|
|
> Hallo!
> Danke für Deine Antwort.
> So ganz ist der Groschen aber noch nicht bei mir
> gefallen.
Das Nichtfallen des Groschens ist eine hoffnungslos ungenaue Formulierung. Sie besagt allenfalls etwas über Deine psychische Befindlichkeit. Soll ich Dir hier vielleicht ein ganzes Lehrbuch über Wahrscheinlichkeitsrechnung schreiben?
> Könntest Du mir noch etwas weiterhelfen?
Vielleicht, aber Du musst schon spezifischer zurückfragen: an welcher Stelle / an welchen Stellen ist meine erste Antwort (für Dich) nicht genügend klar?
Tipp: Du kannst den Text meiner ersten Antwort als "Zitat" in Deine Rückfrage kopieren lassen und dann Deine konkreten Einwände an den betreffenden Stellen zwischen meinen Text einfügen.
|
|
|
|
|
Hi Somebody!
Du hast natürlich recht.
Also. Dann fange ich mal mit meinen Fragen an.
1. Frage: (beantwortet)
>[mm]\Delta^2 = \mathrm{V}[Y-\hat{Y}]+\mathrm{E}[Y-\hat{Y}]^2[/mm]
Wie kommst Du auf diesen Term?
Woher [mm] \Delta^2 [/mm] und [mm] \hat{Y} [/mm] kommen, ist mir klar. Aber woher kommt der ganze Term?
2. Frage: (beantwortet)
>Der zweite Summand, [mm] \mathrm{E}[Y-\hat{Y}]^2 [/mm] , wird minimal für
[mm] >\mathrm{E}[Y-\hat{Y}], [/mm] woraus a=E[Y - bY] folgt.
Das "=0" minimal bedeutet ist klar ( ) aber wieso kann ich das so einfach sagen?
Und wieso folgt aus [mm] \mathrm{E}[Y-\hat{Y}] [/mm] -> a=E[Y - bY]
3.Frage:
[mm] >\Delta^2 [/mm] = [mm] V\mathrm{E}[Y-\hat{Y}]
[/mm]
>Drücke nun diese Varianz mit Hilfe des Parameters und aus.
>Ergänze diesen Term quadratisch so, dass nur noch in einem Glied der Form auftritt.
>Dann ist klar, dass minimal wird, wenn zudem noch gewählt wird.
Allgemein kann man die Varianz ja ausdrücken als:
V[aX+bY]=a^2V[X]+b^2V[Y]+2abcov(X,Y)
Bin jetzt etwas durch das Minus irritiert. Wäre das für die gegebene Gleichung richtig?
[mm] V\mathrm[Y-\hat{Y}]=V[Y]-V[\hat{Y}]+cov(Y,\hat{Y})
[/mm]
Jetzt ist ja: [mm] \hat{Y} [/mm] = a+bX und a=E[Y-bX]
-> [mm] \hat{Y}=E[Y-bX]+bX=E[Y]-E[bX]+bX
[/mm]
hmmm. Jetzt hänge ich wieder.
Phillip
|
|
|
|
|
> Hi Somebody!
> Du hast natürlich recht.
>
> Also. Dann fange ich mal mit meinen Fragen an.
>
> 1. Frage:
>
> >[mm]\Delta^2 = \mathrm{V}[Y-\hat{Y}]+\mathrm{E}[Y-\hat{Y}]^2[/mm]
>
> Wie kommst Du auf diesen Term?
> Woher [mm]\Delta^2[/mm] und [mm]\hat{Y}[/mm] kommen, ist mir klar. Aber
> woher kommt der ganze Term?
Durch simples Ausmultiplizieren der Definition von [mm] $\mathrm{V}[Z]$ [/mm] erhalten wir
[mm]\mathrm{V}[Z]=\mathrm{E}[(Z-\mathrm{E}[Z])^2]=\mathrm{E}[Z^2-2\mathrm{E}[Z]\cdot Z+\mathrm{E}[Z]^2]=\mathrm{E}[Z^2]-\mathrm{E}[Z]^2[/mm]
Also [mm] $\mathrm{V}[Z]=\mathrm{E}[Z^2]-\mathrm{E}[Z]^2$. [/mm] Diese Beziehung hast Du vermutlich bereits angetroffen. Nun kann man dies nach [mm] $\mathrm{E}[Z^2]$ [/mm] auflösen und erhält
[mm]\mathrm{E}[Z^2]=\mathrm{V}[Z]+\mathrm{E}[Z]^2[/mm]
In diese allgemein gültige Gleichung kannst Du für $Z$ die Zufallsvariable [mm] $Y-\hat{Y}$ [/mm] einsetzen. Ergibt, wie behauptet:
[mm]\mathrm{E}[(Y-\hat{Y})^2]=\mathrm{V}[Y-\hat{Y}]+\mathrm{E}[Y-\hat{Y}]^2[/mm]
>
>
> 2. Frage:
> >Der zweite Summand, [mm]\mathrm{E}[Y-\hat{Y}]^2[/mm] , wird
> minimal für
> [mm]>\mathrm{E}[Y-\hat{Y}],[/mm] woraus a=E[Y - bY] folgt.
>
> Das "=0" minimal bedeutet ist klar ( ) aber wieso kann
> ich das so einfach sagen?
[mm] $\mathrm{E}[Y-\hat{Y}]$ [/mm] ist eine reelle Zahl, einverstanden? Nun, für welchen Wert dieser Zahl wird deren Quadrat möglichst klein? Wenn Du eine beliebige reelle Zahl quadrierst ergibt dies doch eine Zahl [mm] $\geq [/mm] 0$; und $=0$ genau dann, wenn die Zahl, die Du quadriert hast, selbst $=0$ war.
> Und wieso folgt aus [mm]\mathrm{E}[Y-\hat{Y}][/mm] -> a=E[Y - bY]
Dies habe ich nicht behauptet, ich habe behauptet, dass aus [mm] $\mathrm{E}[Y-\hat{Y}]=0$ [/mm] folgt, dass [mm] $a=\mathrm{E}[Y-bX]$ [/mm] sein muss. Denn wenn wir in [mm] $\mathrm{E}[Y-\hat{Y}]=0$ [/mm] für [mm] $\hat{Y}$ [/mm] wieder $a+bX$ einsetzen (so hatte ich ja die Abkürzung [mm] $\hat{Y}$ [/mm] eingeführt), dann erhalten wir
[mm]0=\mathrm{E}[Y-(a+bX)]=\mathrm{E}[Y-bX]-\mathrm{E}[a]=\mathrm{E}[Y-bX]-a[/mm]
Also, durch Auflösen dieser Gleichung nach $a$, folgt [mm] $a=\mathrm{E}[Y-bX]$.
[/mm]
|
|
|
|
|
> 3.Frage:
>
> [mm]>\Delta^2[/mm] = [mm]V\mathrm{E}[Y-\hat{Y}][/mm]
> >Drücke nun diese Varianz mit Hilfe des Parameters und
> aus.
> >Ergänze diesen Term quadratisch so, dass nur noch in
> einem Glied der Form auftritt.
> >Dann ist klar, dass minimal wird, wenn zudem noch
> gewählt wird.
>
> Allgemein kann man die Varianz ja ausdrücken als:
> V[aX+bY]=a^2V[X]+b^2V[Y]+2abcov(X,Y)
>
> Bin jetzt etwas durch das Minus irritiert. Wäre das für die
> gegebene Gleichung richtig?
> [mm]V\mathrm[Y-\hat{Y}]=V[Y]-V[\hat{Y}]+cov(Y,\hat{Y})[/mm]
Nicht ganz. (Im Grunde sieht die richtig ausmultiplizierte Varianz von [mm] $Y-\hat{Y}$ [/mm] aus, wie man dies von [mm] $(a-b)^2=a^2-2ab+b^2$ [/mm] gewohnt ist):
[mm]\matrhm{V}[Y-\hat{Y}]=\mathrm{V}[Y]-2\mathrm{cov}(Y,\hat{Y})+\mathrm{V}[\hat{Y}][/mm]
nun ist aber [mm] $\matrm{V}[\hat{Y}]=\mathrm{V}[a+bX]=\mathrm{V}[bX]=b^2\mathrm{V}[X]=b^2$, [/mm] da nach Aufgabenstellung [mm] $\mathrm{V}[X]=1$. [/mm] Des weiteren ist [mm] $\mathrm{cov}(Y,\hat{Y})=\mathrm{cov}(Y,a+bX)=\mathrm{cov}(Y,bX)=b\,\mathrm{cov}(Y,X)$. [/mm] Somit haben wir
[mm]\begin{array}{lcll}
\displaystyle\matrhm{V}[Y-\hat{Y}] &=& \displaystyle\mathrm{V}[Y]-2b\,\mathrm{cov}(Y,X)+b^2\\
&=& \displaystyle\Big(b-\mathrm{cov}(Y,X)\Big)^2-\mathrm{cov}^2(Y,X)+\mathrm{V}[Y] & \text{(quadratisch ergänzt)}
\end{array}[/mm]
um diesen Term zu minimieren müssen wir [mm] $b=\mathrm{cov}(Y,X)$ [/mm] wählen.
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:26 Fr 06.06.2008 | Autor: | Blech |
[mm] $\Psi(a,b):=E((Y-(a+bX))^2)=E(Y^2)+E((a+bX)^2)-2E(Y(a+bX))=$
[/mm]
[mm] $=E(Y^2) [/mm] + [mm] a^2 [/mm] + [mm] 2abE(X)+b^2E(X^2)-2aE(Y)-2bE(XY)$
[/mm]
Unser X und Y sind fest gegeben, wir wollen die Funktion in Abhängigkeit von a und b minimieren.
Also brauchen wir den Gradienten:
[mm] $\nabla \Psi(a,b)= \begin{pmatrix} \frac{\partial\Psi(a,b)}{ \partial a} \\ \frac{\partial\Psi(a,b)} { \partial b}\end{pmatrix} [/mm] = [mm] \vektor{2a+2bE(X)-2E(Y) \\ 2aE(X)+2bE(X^2)-2E(XY)}\overset{!}{=} \vektor{0\\0}$
[/mm]
das ist ein lineares Gleichungssystem mit 2 Unbekannten. Es hat genau eine Lösung, und man kann sich (recht leicht) überlegen, warum das einzige Extremum ein Minimum sein muß.
|
|
|
|