Orientamento all'ottimismo: stime dell'errore di previsione

9

Il libro Elements of Statistical Learning (disponibile in PDF online) discute il pregiudizio ottimisim (7.21, pagina 229). Indica che il pregiudizio all'ottimismo è la differenza tra l'errore dell'allenamento e l'errore nel campione (errore osservato se campioniamo nuovi valori di risultato in ciascuno dei punti di allenamento originali) (per sotto).

inserisci qui la descrizione dell'immagine

Successivamente, afferma che questo pregiudizio di ottimismo ( ) è uguale alla covarianza dei nostri valori y stimati e dei valori y effettivi (formula per sotto). Ho difficoltà a capire perché questa formula indica il pregiudizio all'ottimismo; ingenuamente avrei pensato che una forte covarianza tra reale e descrivesse semplicemente l'accuratezza, non l'ottimismo. Fammi sapere se qualcuno può aiutare con la derivazione della formula o condividere l'intuizione. $\omega$ $y$ $y$

inserisci qui la descrizione dell'immagine

error bias validation

— user1885116
fonte

Molto utile, grazie! Penso che una delle equazioni abbia un refuso minore e dovrebbe essere:

= \frac{1}{N} \sum_{i = 1}^{N} (E_{y} [y_{i}^{2}] + E_{y} [{\hat{y}}_{i}^{2}] - 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E [y_{i} {\hat{y}}_{i}])

$= {1 \over N}\sum_{i=1}^N \left( E_y[y_i^2] + E_y[\hat{y}_i^2] -2 E_y [y_i] E_y[ \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

— Sleepster

8

Cominciamo con l'intuizione.

Non c'è niente di sbagliato nell'usare per prevedere . Infatti, non utilizzarlo significherebbe che stiamo gettando via informazioni preziose. Tuttavia, più dipendiamo dalle informazioni contenute in per elaborare la nostra previsione, più il nostro stimatore sarà eccessivamente ottimista . $y_i$ $\hat{y}_i$ $y_i$

Ad un estremo, se è solo , avrai una previsione del campione perfetta ( ), ma siamo abbastanza sicuri che la previsione fuori campione sarà cattiva. In questo caso (è facile da controllare da soli), i gradi di libertà saranno . $\hat{y}_i$ $y_i$ $R^2 = 1$ $df(\hat{y}) = n$

Dall'altro estremo, se usi la media campionaria di : per tutti , allora i tuoi gradi di libertà saranno solo 1. $y$ $y_i = \hat{y_i} = \bar{y}$ $i$

Controllare questo bel volantino da Ryan Tibshirani per maggiori dettagli su questa intuizione

Ora una prova simile all'altra risposta, ma con un po 'più di spiegazione

Ricorda che, per definizione, l'ottimismo medio è:

ω = E_{y} (E r r_{i n} - \bar{e r r})

$\omega = E_y (Err_{in} - \overline{err})$

= E_{y} (\frac{1}{N} \sum_{i = 1}^{N} E_{Y^{0}} [L (Y_{i}^{0}, \hat{f} (x_{i}) | T)] - \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, \hat{f} (x_{i})))

$= E_y \left( {1 \over N} \sum_{i=1}^N E_{Y^0} \left[ L(Y_i^0, \hat{f} (x_i) \; |\; T) \right] - {1 \over N} \sum_{i=1}^N L(y_i, \hat{f} (x_i) ) \right)$

Ora usa una funzione di perdita quadratica ed espandi i termini al quadrato:

= E_{y} (\frac{1}{N} \sum_{i = 1}^{N} E_{Y^{0}} [(Y_{i}^{0} - {\hat{y}}_{i})^{2}] - \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - {\hat{y}}_{i})^{2}))

$= E_y \left( {1 \over N} \sum_{i=1}^N E_{Y^0} \left[ (Y_i^0 - \hat{y}_i)^2 \right] - {1 \over N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 ) \right)$

= \frac{1}{N} \sum_{i = 1}^{N} (E_{y} E_{Y^{0}} [(Y_{i}^{0})^{2}] + E_{y} E_{Y^{0}} [{\hat{y}}_{i}^{2}] - 2 E_{y} E_{Y^{0}} [Y_{i}^{0} {\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E [y_{i} {\hat{y}}_{i}])

$= {1 \over N} \sum_{i=1}^N\left( E_y E_{Y^0}[(Y_i^0)^2] + E_y E_{Y^0} [\hat{y}_i^2] -2 E_y E_{Y^0} [Y_i^0 \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

usa per sostituire: $E_y E_{Y^0}[(Y_i^0)^2] = E_y[y_i^2]$

= \frac{1}{N} \sum_{i = 1}^{N} (E_{y} [y_{i}^{2}] + E_{y} [{\hat{y_{i}}}^{2}] - 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E [y_{i} {\hat{y}}_{i}])

$= {1 \over N}\sum_{i=1}^N \left( E_y[y_i^2] + E_y[\hat{y_i}^2] -2 E_y [y_i] E_y[ \hat{y}_i] - E_y[y_i^2] - E_y[\hat{y}_i^2] + 2E[y_i \hat{y}_i] \right)$

= \frac{2}{N} \sum_{i = 1}^{N} (E [y_{i} {\hat{y}}_{i}] - E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}])

$= {2 \over N} \sum_{i=1}^N \left( E[y_i \hat{y}_i] - E_y [y_i] E_y[ \hat{y}_i] \right)$

Per finire, nota che , che produce: $Cov(x, w) = E[xw] - E[x]E[w]$

= \frac{2}{N} \sum_{i = 1}^{N} C o v (y_{i}, {\hat{y}}_{i})

$= {2 \over N} \sum_{i=1}^N Cov(y_i, \hat{y}_i)$

— CD98
fonte

5

Devo sottolineare che il suo nome è scritto "Ryan Tibshirani" Rob Tibshirani

— robert tibshirani,

2

Benvenuto sul nostro sito, Rob - è un privilegio averti qui, anche solo per correggere un errore! Se ne vedi altri, ti preghiamo di farcelo sapere: e ovviamente saremmo lieti di qualsiasi risposta tu o i tuoi studenti ti possa interessare. Il tuo lavoro è ampiamente referenziato su questo sito, in particolare ESL e Intro al Bootstrap.

— whuber

dispiace spiegare ? Inoltre, è ?

E_{y} E_{Y^{0}} [(Y_{i}^{0})^{2}] = E_{y} [y_{i}^{2}]

$E_y E_{Y^0}[(Y_i^0)^2] = E_y[y_i^2]$

2 E_{y} E_{Y^{0}} [Y_{i}^{0} {\hat{y}}_{i}] = 2 E_{y} [E_{Y^{0}} [Y_{i}^{0}] E_{Y^{0}} [{\hat{y}}_{i}]] = 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}]

$2 E_y E_{Y^0} [Y_i^0 \hat{y}_i]=2 E_y [E_{Y^0} [Y_i^0]E_{Y^0}[\hat{y}_i]]=2 E_y [y_i] E_y[ \hat{y}_i]$

— Shookie,

7

Lascia che , quindi $\hat{f}(x_i)=\hat{y}_i$

\begin{aligned} ω & = E_{y} [o p] \\ = E_{y} [E r r_{i n} - \bar{e r r}] \\ = E_{y} [E r r_{i n}] - E_{y} [\bar{e r r}] \\ = E_{y} [\frac{1}{N} \sum_{i = 1}^{N} E_{Y^{0}} [L (Y_{i}^{0}, \hat{f} (x_{i}))] - E_{y} [\frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, \hat{f} (x_{i}))] \\ = \frac{1}{N} \sum_{i = 1}^{N} E_{y} E_{Y^{0}} [(Y_{i}^{0} - {\hat{y}}_{i})^{2}] - E_{y} [(y_{i} - {\hat{y}}_{i})^{2}] \\ = \frac{1}{N} \sum_{i = 1}^{N} E_{y} E_{Y^{0}} [(Y_{i}^{0})^{2}] + E_{y} E_{Y^{0}} [{\hat{y}}_{i}^{2}] - 2 E_{y} E_{Y^{0}} [Y_{i}^{0} {\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E_{y} [y_{i} {\hat{y}}_{i}] \\ = \frac{1}{N} \sum_{i = 1}^{N} E_{y} [y_{i}^{2}] + E_{y} [{\hat{y}}_{i}^{2}] - 2 E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}] - E_{y} [y_{i}^{2}] - E_{y} [{\hat{y}}_{i}^{2}] + 2 E_{y} [y_{i} {\hat{y}}_{i}] \\ = \frac{2}{N} \sum_{i = 1}^{N} E_{y} [y_{i} {\hat{y}}_{i}] - E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}] \\ = \frac{2}{N} \sum_{i = 1}^{N} E_{y} [y_{i} {\hat{y}}_{i} - y_{i} E_{y} [{\hat{y}}_{i}] - E_{y} [y_{i}] {\hat{y}}_{i} + E_{y} [y_{i}] E_{y} [{\hat{y}}_{i}]] \\ = \frac{2}{N} \sum_{i = 1}^{N} E_{y} [({\hat{y}}_{i} - E_{y} [{\hat{y}}_{i}]) ([y_{i} - E_{y} [y_{i}])] \\ = \frac{2}{N} \sum_{i = 1}^{N} c o v ({\hat{y}}_{i}, y_{i}) \end{aligned}

$\begin{aligned} \omega &= E_\boldsymbol{y}[op]\\ &=E_\boldsymbol{y}[Err_{in}-\overline{err}]\\ &=E_\boldsymbol{y}[Err_{in}]-E_\boldsymbol{y}[\overline{err}]\\ &=E_\boldsymbol{y}[\frac{1}{N}\sum_{i=1}^{N}E_{Y^0}[L(Y_i^0,\hat{f}(x_i))]-E_\boldsymbol{y}[\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat{f}(x_i))]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}E_{Y^0}[(Y_i^0-\hat{y}_i)^2]-E_\boldsymbol{y}[(y_i-\hat{y}_i)^2]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}E_{Y^0}[({Y_i^0})^2]+E_\boldsymbol{y}E_{Y^0}[{\hat{y}_i}^2]-2E_\boldsymbol{y}E_{Y^0}[Y_i^0\hat{y}_i]-E_\boldsymbol{y}[y_i^2]-E_\boldsymbol{y}[\hat{y}_i^2]+2E_\boldsymbol{y}[y_i\hat{y}_i]\\ &=\frac{1}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i^2]+E_\boldsymbol{y}[\hat{y}_i^2]-2E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]-E_\boldsymbol{y}[y_i^2]-E_\boldsymbol{y}[\hat{y}_i^2]+2E_\boldsymbol{y}[y_i\hat{y}_i]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i\hat{y}_i]-E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[y_i\hat{y}_i-y_iE_\boldsymbol{y}[\hat{y}_i]-E_\boldsymbol{y}[y_i]\hat{y}_i+E_\boldsymbol{y}[y_i]E_\boldsymbol{y}[\hat{y}_i]]\\ &=\frac{2}{N}\sum_{i=1}^{N}E_\boldsymbol{y}[(\hat{y}_i-E_\boldsymbol{y}[\hat{y}_i])([y_i-E_\boldsymbol{y}[y_i])]\\ &=\frac{2}{N}\sum_{i=1}^{N}cov(\hat{y}_i,y_i) \end{aligned}$ QED

— Maciej Lazarewicz
fonte

1

Gli ultimi quattro passaggi possono essere semplificati da questa proprietà di covarianza:

E [x w] - E [x] E [w] = C o v (x, w)

$E[x w ] - E[x] E[w] = Cov(x, w)$

— cd98