Orientamento all'ottimismo: stime dell'errore di previsione


9

Il libro Elements of Statistical Learning (disponibile in PDF online) discute il pregiudizio ottimisim (7.21, pagina 229). Indica che il pregiudizio all'ottimismo è la differenza tra l'errore dell'allenamento e l'errore nel campione (errore osservato se campioniamo nuovi valori di risultato in ciascuno dei punti di allenamento originali) (per sotto).

inserisci qui la descrizione dell'immagine

Successivamente, afferma che questo pregiudizio di ottimismo ( ) è uguale alla covarianza dei nostri valori y stimati e dei valori y effettivi (formula per sotto). Ho difficoltà a capire perché questa formula indica il pregiudizio all'ottimismo; ingenuamente avrei pensato che una forte covarianza tra reale e descrivesse semplicemente l'accuratezza, non l'ottimismo. Fammi sapere se qualcuno può aiutare con la derivazione della formula o condividere l'intuizione. ωyy

inserisci qui la descrizione dell'immagine


Molto utile, grazie! Penso che una delle equazioni abbia un refuso minore e dovrebbe essere:=1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])
Sleepster

Risposte:


8

Cominciamo con l'intuizione.

Non c'è niente di sbagliato nell'usare per prevedere . Infatti, non utilizzarlo significherebbe che stiamo gettando via informazioni preziose. Tuttavia, più dipendiamo dalle informazioni contenute in per elaborare la nostra previsione, più il nostro stimatore sarà eccessivamente ottimista .yiy^iyi

Ad un estremo, se è solo , avrai una previsione del campione perfetta ( ), ma siamo abbastanza sicuri che la previsione fuori campione sarà cattiva. In questo caso (è facile da controllare da soli), i gradi di libertà saranno .y^iyiR2=1df(y^)=n

Dall'altro estremo, se usi la media campionaria di : per tutti , allora i tuoi gradi di libertà saranno solo 1.yyi=yi^=y¯i

Controllare questo bel volantino da Ryan Tibshirani per maggiori dettagli su questa intuizione


Ora una prova simile all'altra risposta, ma con un po 'più di spiegazione

Ricorda che, per definizione, l'ottimismo medio è:

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

Ora usa una funzione di perdita quadratica ed espandi i termini al quadrato:

=Ey(1Ni=1NEY0[(Yi0y^i)2]1Ni=1N(yiy^i)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

usa per sostituire:EyEY0[(Yi0)2]=Ey[yi2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Per finire, nota che , che produce:Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)

5
Devo sottolineare che il suo nome è scritto "Ryan Tibshirani" Rob Tibshirani
robert tibshirani,

2
Benvenuto sul nostro sito, Rob - è un privilegio averti qui, anche solo per correggere un errore! Se ne vedi altri, ti preghiamo di farcelo sapere: e ovviamente saremmo lieti di qualsiasi risposta tu o i tuoi studenti ti possa interessare. Il tuo lavoro è ampiamente referenziato su questo sito, in particolare ESL e Intro al Bootstrap.
whuber

dispiace spiegare ? Inoltre, è ? EyEY0[(Yi0)2]=Ey[yi2]2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]
Shookie,

7

Lascia che , quindi f^(xi)=y^i

ω=Ey[op]=Ey[Errinerr¯]=Ey[Errin]Ey[err¯]=Ey[1Ni=1NEY0[L(Yi0,f^(xi))]Ey[1Ni=1NL(yi,f^(xi))]=1Ni=1NEyEY0[(Yi0y^i)2]Ey[(yiy^i)2]=1Ni=1NEyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=1Ni=1NEy[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=2Ni=1NEy[yiy^i]Ey[yi]Ey[y^i]=2Ni=1NEy[yiy^iyiEy[y^i]Ey[yi]y^i+Ey[yi]Ey[y^i]]=2Ni=1NEy[(y^iEy[y^i])([yiEy[yi])]=2Ni=1Ncov(y^i,yi)
QED

1
Gli ultimi quattro passaggi possono essere semplificati da questa proprietà di covarianza:E[xw]E[x]E[w]=Cov(x,w)
cd98
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.