Errore di previsione previsto - derivazione


20

Faccio fatica a capire la derivazione dell'errore di predizione previsto per sotto (ESL), in particolare sulla derivazione di 2.11 e 2.12 (condizionamento, il passo verso il minimo puntuale). Eventuali puntatori o link molto apprezzati.

Di seguito sto riportando l'estratto di ESL pag. 18. Le prime due equazioni sono, in ordine, l'equazione 2.11 e 2.12.


Consenti a indicare un vettore di input casuale con valori reali e una variabile di output casuale con valori reali, con distribuzione congiunta . Cerchiamo una funzione per predire dati valori di ingresso . Questa teoria richiede una funzione di perdita per penalizzare gli errori di predizione, e di gran lunga la più comune e conveniente è la perdita di errori al quadrato : . Questo ci conduce a un criterio per la scelta di ,XRpYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

l'errore di previsione previsto (al quadrato). Condizionando su X , possiamo scrivere EPE come

EPE(f)=EXEY|X([Yf(X)]2|X)

e vediamo che è sufficiente ridurre al minimo EPE:

f(x)=argmincEY|X([Yc]2|X)

La soluzione è

f(x)=E(Y|X=x)

l'attesa condizionale, nota anche come funzione di regressione .


Scambiare e nella prima equazione nell'articolo di Wikipedia sulla Legge delle aspettative totali fornisce l'equivalenza di (2.9) e (2.11). Leggi l'articolo per prove. (2.12) è immediato, a condizione che debba essere scelto al fine di ridurre al minimo l'EPE. XYf
whuber

3
Nota a
margine

2
Per coloro che leggono anche questo libro, dai un'occhiata a queste note complete di Weathermax ed Epstein
Dodgie,

@Dodgie Quel link è morto: (
Matthew Drury,

2
@MatthewDrury Fortunatamente un googling di "statistiche WeatherMax e Epstein" ha restituito un collegamento come il primo risultato;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Risposte:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Capisco quello che hai scritto, ma pensi che se l'OP fosse confuso dalla derivazione mostrata nella domanda, capirà la tua risposta? ovviamente, ho già capito la derivazione mostrata nella domanda.
Mark L. Stone,

Sono arrivato qui da Google con la stessa domanda e in realtà trovo che questa derivazione sia esattamente ciò di cui avevo bisogno.
Punto e virgola e nastro

1
@ MarkL.Stone - questa potrebbe essere una domanda stupida, ma potresti spiegare cosa si intende per e come diventa ? Grazie p ( x , y ) d x d yPr(dx,dy)p(x,y)dxdy
mille

1
Ciò che si intende per primo è il secondo. Penso che sia più comune usare invece dP (x, y) o dF (x, y). In 1D, vedrai spesso dF (x) come f (x) dx, dove f (x) è la funzione di densità di probabilità, ma la notazione può anche consentire una funzione di massa di probabilità discreta (in somma) o anche una miscela di densità continua e massa di probabilità discreta.
Mark L. Stone,

Non sarebbe più preciso dire (ultima formula) ? EX(EY|X([Yf(X)]2|X=x))
D1X

11

L'equazione (2.11) è una conseguenza della seguente piccola uguaglianza. Per due variabili casuali e e qualsiasi funzioneZ 2 gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

La notazione è l'aspettativa sulla distribuzione congiunta . La notazione dice essenzialmente "integra sulla distribuzione condizionale di come se fosse corretto".EZ1,Z2 Z 1 Z 2EZ1Z2Z1Z2

È facile verificarlo nel caso in cui e siano variabili casuali discrete semplicemente svolgendo le definizioni coinvolteZ 2Z1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

Il caso continuo può essere visto in modo informale come un limite di questo argomento o verificato formalmente una volta che tutte le misure teoriche sono in atto.

Per svolgere l'applicazione, prendere , e . Tutto si allinea esattamente.Z1=YZ2=Xg(x,y)=(yf(x))2

L'asserzione (2.12) ci chiede di considerare la riduzione al minimo

EXEYX(Yf(X))2

dove siamo liberi di scegliere come desideriamo. Ancora una volta, concentrandoci sul caso discreto e scendendo a metà nello svolgersi sopra, vediamo che stiamo minimizzandof

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Tutto all'interno della grande parentesi non è negativo e puoi minimizzare una somma di quantità non negative minimizzando le somme singolarmente. Nel contesto, ciò significa che possiamo scegliere per ridurre a iconaf

y(yf(x))2Pr(Y=yX=x)

individualmente per ogni valore discreto di . Questo è esattamente il contenuto di ciò che ESL afferma, solo con una notazione più elaborata.x


8

Trovo che alcune parti di questo libro esprimano in un modo che è difficile da capire, specialmente per coloro che non hanno un forte background nelle statistiche.

Proverò a renderlo semplice e spero che tu possa liberarti della confusione.

Rivendicazione 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Prova : si noti che E (Y) è una costante ma E (Y | X) è una variabile casuale che dipende da X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Rivendicazione 2 :E(Yf(X))2E(YE(Y|X))2,f

Prova :

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Prendendo le aspettative entrambi i lati dell'equazione di cui sopra danno la rivendicazione 2 (QED)

Pertanto, la f ottimale èf(X)=E(Y|X)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.