(Questo è un adattamento di Granger & Newbold (1986) "Previsioni serie economiche").
Per costruzione, la tua funzione di costo dell'errore è . Questo include un presupposto critico (che la funzione del costo dell'errore è simmetrica intorno allo zero) -una diversa funzione del costo dell'errore non avrebbe necessariamente il valore atteso condizionato come del suo valore atteso. Non è possibile ridurre al minimo la funzione del costo dell'errore perché contiene quantità sconosciute. Quindi decidi di ridurre al minimo il suo valore previsto. Quindi la tua funzione oggettiva diventa argmin[ Y- g( X) ]2argmin
E[ Y- g( X) ]2= ∫∞- ∞[ y- g( X) ]2fY| X( y| x)dy
a cui credo risponde anche la tua seconda domanda. È intuitivo che il valore atteso sarà di subordinata , dato che stiamo cercando di stimare / prevedere basato su . Decomporre il quadrato da ottenereX Y XYXYX
E[ Y- g( X) ]2= ∫∞- ∞y2fY| X( y| x)dy- 2 g( X) ∫∞- ∞yfY| X( y| x)dy+ [ g( X) ]2∫∞- ∞fY| X( y| x)dy
Il primo termine non contiene quindi non influisce sulla minimizzazione e può essere ignorato. L'integrale nel secondo termine equivale al valore atteso condizionale di dato , e l'integrale nell'ultimo termine è uguale all'unità. CosìY Xg( X)YX
argming( x )E[ Y- g( X) ]2= argming( x ){ -2g( X) E( Y∣ X) + [ g( X) ]2}
La prima derivata wrt è porta alla condizione del primo ordine per la minimizzazione mentre la seconda derivata è uguale a che è sufficiente per un minimo.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0g( X)- 2 E( Y∣ X) + 2 g( X)g( X) = E( Y∣ X)2 > 0
ADDENDUM: la logica dell'approccio di prova "aggiungi e sottrai".
L'OP è perplesso per l'approccio indicato nella domanda, perché sembra tautologico. Non lo è, perché mentre usando la tattica di aggiungere e sottrarre una parte specifica della funzione obiettivo zero per una scelta arbitraria del termine che viene aggiunto e sottratto, NON eguaglia la funzione valore , vale a dire il valore dell'obiettivo funzione valutata presso il minimizer candidato.
Per la scelta abbiamo la funzione valore
Per la scelta arbitraria abbiamo il valore funtion .g( X) = E( Y∣ X) g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (V( E( Y∣ X) ) = E[ ( Y- E( Y∣ X) )2∣ X]g( X) = h ( X)V( h ( X) ) = E[ ( Y- h ( X) )2∣ X]
Lo rivendico
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V( E( Y∣ X) ) ≤ V( h ( X) )
⇒ E( Y2∣ X) - 2 E[ ( YE( Y∣ X) ) ∣ X] +E[ (E( Y∣ X) )2∣ X]≤ E( Y2∣ X) - 2 E[ ( Yh ( X) ) ∣ X] +E[ (h(X) )2∣ X]
Il primo termine di LHS e RHS si annulla. Si noti inoltre che l'aspettativa esterna è subordinato al . Dalle proprietà delle aspettative condizionali con cui finiamoX
. . . ⇒ - 2 E( Y∣ X) ⋅ E( Y∣ X) + [ E( Y∣ X) ]2≤ - 2 E( Y∣ X) h ( X) + [ h ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) ]2- 2 E( Y∣ X) h ( X) + [ h ( X) ]2
h ( x ) ≠ E ( Y ∣ X ) E ( Y ∣ X )
⇒ 0 ≤ [ E( Y∣ X) - h ( x ) ]2
che tiene in stretta disparità se . Quindi è il minimizer globale e unico.
h ( x ) ≠ E( Y∣ X)E( Y∣ X)
Ma questo dice anche che l'approccio "aggiungi e sottrai" non è il modo più illuminante di dimostrazione qui.