Problema con la prova dell'aspettativa condizionale come miglior predittore


19

Ho un problema con la prova di

E(Y|X)argming(X)E[(Yg(X))2]

che molto probabilmente rivelano un più profondo fraintendimento di aspettative e aspettative condizionate.

La prova che conosco è la seguente (un'altra versione di questa prova può essere trovata qui )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

La dimostrazione quindi continua in genere con un argomento che mostra che 2E[(YE(Y|X))(E(Y|X)g(X))]=0 e quindi

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

che può essere visto come minimizzato quando g(X)=E(Y|X) .

I miei enigmi sulla dimostrazione sono i seguenti:

  1. Ritenere

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Mi sembra che, indipendentemente da qualsiasi argomento che dimostri che il primo termine sia sempre uguale a zero, si può vedere che l'impostazione g(X)=E(Y|X) minimizza l'espressione in quanto implica (E(Y|X)g(X))=0 e quindi

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Ma se questo è vero, allora si potrebbe ripetere la dimostrazione sostituendo con qualsiasi altra funzione di , dire , e arrivare alla conclusione che è che minimizza l'espressione. Quindi ci deve essere qualcosa che fraintendo (giusto?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. Ho dei dubbi sul significato di nell'affermazione del problema. Come deve essere interpretata la notazione? SignificaE[(Yg(X))2]

E Y [ ( Y - g ( X ) ) 2 ] E X Y [ ( Y - g ( X ) ) 2 ]EX[(Yg(X))2] , o ?EY[(Yg(X))2]EXY[(Yg(X))2]

Risposte:


11

(Questo è un adattamento di Granger & Newbold (1986) "Previsioni serie economiche").

Per costruzione, la tua funzione di costo dell'errore è . Questo include un presupposto critico (che la funzione del costo dell'errore è simmetrica intorno allo zero) -una diversa funzione del costo dell'errore non avrebbe necessariamente il valore atteso condizionato come del suo valore atteso. Non è possibile ridurre al minimo la funzione del costo dell'errore perché contiene quantità sconosciute. Quindi decidi di ridurre al minimo il suo valore previsto. Quindi la tua funzione oggettiva diventa argmin[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

a cui credo risponde anche la tua seconda domanda. È intuitivo che il valore atteso sarà di subordinata , dato che stiamo cercando di stimare / prevedere basato su . Decomporre il quadrato da ottenereX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Il primo termine non contiene quindi non influisce sulla minimizzazione e può essere ignorato. L'integrale nel secondo termine equivale al valore atteso condizionale di dato , e l'integrale nell'ultimo termine è uguale all'unità. CosìY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

La prima derivata wrt è porta alla condizione del primo ordine per la minimizzazione mentre la seconda derivata è uguale a che è sufficiente per un minimo.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ADDENDUM: la logica dell'approccio di prova "aggiungi e sottrai".

L'OP è perplesso per l'approccio indicato nella domanda, perché sembra tautologico. Non lo è, perché mentre usando la tattica di aggiungere e sottrarre una parte specifica della funzione obiettivo zero per una scelta arbitraria del termine che viene aggiunto e sottratto, NON eguaglia la funzione valore , vale a dire il valore dell'obiettivo funzione valutata presso il minimizer candidato.

Per la scelta abbiamo la funzione valore Per la scelta arbitraria abbiamo il valore funtion .g(X)=E(YX) g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Lo rivendico

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X ) ) 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Il primo termine di LHS e RHS si annulla. Si noti inoltre che l'aspettativa esterna è subordinato al . Dalle proprietà delle aspettative condizionali con cui finiamoX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

h ( x ) E ( Y X ) E ( Y X )

0[E(YX)h(x)]2
che tiene in stretta disparità se . Quindi è il minimizer globale e unico.h(x)E(YX)E(YX)

Ma questo dice anche che l'approccio "aggiungi e sottrai" non è il modo più illuminante di dimostrazione qui.


Grazie per la risposta. Aiuta a chiarire la mia seconda domanda. Mentre cercavo di comunicare il titolo della domanda, il mio problema principale (il primo nel post) riguardava più il meccanismo di prova. La mia preoccupazione principale riguarda la mia comprensione della prova che ho presentato nella domanda. Come ho spiegato, la mia comprensione della prova mi porta a un'affermazione palesemente problematica. Quindi vorrei capire se il mio errore è in quanto potrebbe rivelare alcuni equivoci più profondi sui concetti di aspettativa e aspettativa condizionale. Qualche idea a riguardo?
Martin Van der Linden,

1
Ho aggiunto alcune spiegazioni sull'approccio "aggiungi e sottrai" alla prova.
Alecos Papadopoulos,

Mi ci è voluto un po 'di tempo per capirlo, ma finalmente ho avuto il mio errore di base: abbastanza vero quando , ma non implica in alcun modo che minimizzi l'espressione . Non vi è alcun motivo per cui l'espressione tra parentesi non possa essere inferiore a zero. A causa del segno meno davanti a si possono trovare alcuni tali che . E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Martin Van der Linden,

1
Hmmm ... il segno meno nell'espressione a cui ti riferisci è un errore - dovrebbe essere un segno più. Ovviamente potresti riorganizzare i termini per ottenere di nuovo un segno meno ... Questo danneggia l'intuizione che hai guadagnato?
Alecos Papadopoulos,

Grazie per tenere il passo con la domanda. Ho modificato il post iniziale per correggere questo errore. Fortunatamente, penso che non danneggi l'intuizione acquisita. In realtà mi aiuta a capire ancora un altro errore: stavo assumendo che il segno meno fosse importante per garantire che non fosse necessariamente il minimo di . Ma mi rendo conto che questo non riguarda solo il segno prima del 2. (Spero) Quello che dovevo davvero capire è che, in generale (cioè per arbitrario ) non deve essere minimizzato quando (giusto?). 0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
Martin Van der Linden,

5

Nota che per provare la risposta, devi solo dimostrarlo

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Per quanto riguarda quale aspettativa prendere, la prendi in modo condizionale, altrimenti il ​​termine

argming(X)E[(Yg(X))2]

Non ha senso, poiché è una variabile casuale se è e non . Mostra che dovresti davvero scrivere o per chiarire questo. Ora dato questo chiarimento, il termine è una costante e può essere tirato fuori dall'attesa, e hai:g(X)EEXYEY|XE[(Yg(X))2|X]EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Quindi puoi scrivere la funzione obiettivo come:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Il minimizer è ovvio da qui. Nota che se anche tu dovessi eseguire la media su , puoi mostrare un argomento molto simile per mostrare:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Ciò dimostra che se si imposta per ogni , si ha anche un minimizzatore su questa funzione. Quindi, in un certo senso, non importa se è o .g(X)=EY|X(Y|X)XEEYXEY|X


3

C'è un punto di vista matematico che è molto semplice. Quello che hai è un problema di proiezione in uno spazio di Hilbert, proprio come proiettare un vettore in su un sottospazio.Rn

Let denota lo spazio di probabilità sottostante. Affinché il problema abbia un senso, considerare le variabili casuali con secondi momenti finiti, cioè lo spazio di Hilbert . Il problema ora è questo: dato , trova la proiezione di sul sottospazio , dove è il -subalgebra di generata da . (Proprio come nel caso delle dimensioni finite, minimizzare la distanza di in un sottospazio significa trovare la proiezione). La proiezione desiderata è(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , per costruzione. (Questo in realtà caratterizza , se si ispeziona la prova dell'esistenza).E(X|Y)


Questa è una bella risposta.
jII

0

Per quanto riguarda la tua ultima domanda, l'aspettativa può essere wrt (errore incondizionato) o wrt (errore condizionale per ciascun valore ). Fortunatamente, minimizzare l'errore condizionale ad ogni valore minimizza anche l'errore incondizionato, quindi questa non è una distinzione cruciale.p(x,y)p(yx)X=xX=x

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.