Errore di previsione previsto - derivazione

Faccio fatica a capire la derivazione dell'errore di predizione previsto per sotto (ESL), in particolare sulla derivazione di 2.11 e 2.12 (condizionamento, il passo verso il minimo puntuale). Eventuali puntatori o link molto apprezzati.

Di seguito sto riportando l'estratto di ESL pag. 18. Le prime due equazioni sono, in ordine, l'equazione 2.11 e 2.12.

Consenti a indicare un vettore di input casuale con valori reali e una variabile di output casuale con valori reali, con distribuzione congiunta . Cerchiamo una funzione per predire dati valori di ingresso . Questa teoria richiede una funzione di perdita per penalizzare gli errori di predizione, e di gran lunga la più comune e conveniente è la perdita di errori al quadrato : . Questo ci conduce a un criterio per la scelta di , $X \in \mathbb{R}^p$ $Y \in \mathbb{R}$ $\text{Pr}(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y-f(X))^2$ $f$

\begin{aligned} EPE (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} Pr (d x, d y) \end{aligned}

$\begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split}$

l'errore di previsione previsto (al quadrato). Condizionando su $X$ , possiamo scrivere EPE come

EPE (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X)

$\text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X)$

e vediamo che è sufficiente ridurre al minimo EPE:

f (x) = {argmin}_{c} E_{Y | X} ([Y - c]^{2} | X)

$f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X)$

La soluzione è

f (x) = E (Y | X = x)

$f(x) = \text{E}(Y|X=x)$

l'attesa condizionale, nota anche come funzione di regressione .

regression prediction error

— user1885116
fonte

Scambiare e nella prima equazione nell'articolo di Wikipedia sulla Legge delle aspettative totali fornisce l'equivalenza di (2.9) e (2.11). Leggi l'articolo per prove. (2.12) è immediato, a condizione che debba essere scelto al fine di ridurre al minimo l'EPE.

X

$X$

Y

$Y$

f

$f$

— whuber

Nota a

— margine

Per coloro che leggono anche questo libro, dai un'occhiata a queste note complete di Weathermax ed Epstein

— Dodgie,

@Dodgie Quel link è morto: (

— Matthew Drury,

@MatthewDrury Fortunatamente un googling di "statistiche WeatherMax e Epstein" ha restituito un collegamento come il primo risultato;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...

— Dodgie

Risposte:

\begin{aligned} E P E (f) & = \int [y - f (x)]^{2} P r (d x, d y) \\ = \int [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x) p (y | x) d x d y \\ = \int_{x} (\int_{y} [y - f (x)]^{2} p (y | x) d y) p (x) d x \\ = \int_{x} (E_{Y | X} ([Y - f (X)]^{2} | X = x)) p (x) d x \\ = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X = x) \end{aligned}

$\begin{align*} EPE(f) &= \int [y - f(x)]^2 Pr(dx, dy) \\ &= \int [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x)p(y|x)dxdy \\ &= \int_x\left( \int_y [y - f(x)]^2p(y|x)dy \right)p(x)dx \\ &= \int_x \left( E_{Y|X}([Y - f(X)]^2|X = x) \right) p(x)dx\\ &= E_{X}E_{Y|X}([Y - f(X)]^2| X = x) \end{align*}$

— user48002
fonte

Capisco quello che hai scritto, ma pensi che se l'OP fosse confuso dalla derivazione mostrata nella domanda, capirà la tua risposta? ovviamente, ho già capito la derivazione mostrata nella domanda.

— Mark L. Stone,

Sono arrivato qui da Google con la stessa domanda e in realtà trovo che questa derivazione sia esattamente ciò di cui avevo bisogno.

— Punto e virgola e nastro

@ MarkL.Stone - questa potrebbe essere una domanda stupida, ma potresti spiegare cosa si intende per e come diventa ? Grazie

P r (d x, d y)

$Pr(dx,dy)$

p (x, y) d x d y

$p(x,y)dxdy$

— mille

Ciò che si intende per primo è il secondo. Penso che sia più comune usare invece dP (x, y) o dF (x, y). In 1D, vedrai spesso dF (x) come f (x) dx, dove f (x) è la funzione di densità di probabilità, ma la notazione può anche consentire una funzione di massa di probabilità discreta (in somma) o anche una miscela di densità continua e massa di probabilità discreta.

— Mark L. Stone,

Non sarebbe più preciso dire (ultima formula) ?

E_{X} (E_{Y | X} ([Y - f (X)]^{2} | X = x))

$E_{X}(E_{Y|X}([Y - f(X)]^2| X = x))$

— D1X

L'equazione (2.11) è una conseguenza della seguente piccola uguaglianza. Per due variabili casuali e e qualsiasi funzione $Z_1$ $Z_2$ $g$

E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) = E_{Z_{2}} (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2}))

$E_{Z_1, Z_2} (g(Z_1, Z_2)) = E_{Z_2}(E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2))$

La notazione è l'aspettativa sulla distribuzione congiunta . La notazione dice essenzialmente "integra sulla distribuzione condizionale di come se fosse corretto". $E_{Z_1, Z_2}$ $E_{Z_1 \mid Z_2}$ $Z_1$ $Z_2$

È facile verificarlo nel caso in cui e siano variabili casuali discrete semplicemente svolgendo le definizioni coinvolte $Z_1$ $Z_2$

\begin{aligned} E_{Z_{2}} & (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2})) \\ = E_{Z_{2}} (\sum_{z_{1}} g (z_{1}, Z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2})) \\ = \sum_{z_{2}} (\sum_{z_{1}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2})) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2}) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1}, Z_{2} = z_{2}) \\ = E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) \end{aligned}

$\begin{align} E_{Z_2} & (E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) \\ &= E_{Z_2} \left( \sum_{z_1} g(z_1, Z_2) Pr(Z_1 = z_1 \mid Z_2 ) \right) \\ &= \sum_{z_2} \left( \sum_{z_1} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2 ) \right) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1, Z_2 = z_2 ) \\ &= E_{Z_1, Z_2} (g(Z_1, Z_2)) \end{align}$

Il caso continuo può essere visto in modo informale come un limite di questo argomento o verificato formalmente una volta che tutte le misure teoriche sono in atto.

Per svolgere l'applicazione, prendere , e . Tutto si allinea esattamente. $Z_1 = Y$ $Z_2 = X$ $g(x, y) = (y - f(x))^2$

L'asserzione (2.12) ci chiede di considerare la riduzione al minimo

E_{X} E_{Y ∣ X} (Y - f (X))^{2}

$E_X E_{Y \mid X} (Y - f(X))^2$

dove siamo liberi di scegliere come desideriamo. Ancora una volta, concentrandoci sul caso discreto e scendendo a metà nello svolgersi sopra, vediamo che stiamo minimizzando $f$

\sum_{x} (\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)) P r (X = x)

$\sum_{x} \left( \sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x) \right) Pr(X = x)$

Tutto all'interno della grande parentesi non è negativo e puoi minimizzare una somma di quantità non negative minimizzando le somme singolarmente. Nel contesto, ciò significa che possiamo scegliere per ridurre a icona $f$

\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)

$\sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x)$

individualmente per ogni valore discreto di . Questo è esattamente il contenuto di ciò che ESL afferma, solo con una notazione più elaborata. $x$

— Matthew Drury
fonte

Trovo che alcune parti di questo libro esprimano in un modo che è difficile da capire, specialmente per coloro che non hanno un forte background nelle statistiche.

Proverò a renderlo semplice e spero che tu possa liberarti della confusione.

Rivendicazione 1 (Smoothing) $E(X) = E(E(X|Y)),\forall X,Y$

Prova : si noti che E (Y) è una costante ma E (Y | X) è una variabile casuale che dipende da X.

\begin{aligned} E (E (X | Y)) & = \int E (X | Y = y) f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) d x f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) f_{Y} (y) d x d y \\ = \int \int x f_{X Y} (x, y) d x d y \\ = \int x (\int f_{X Y} (x, y) d y) d x \\ = \int x f_{X} (x) d x = E (X) \end{aligned}

$\begin{align} E(E(X|Y)) &= \displaystyle\int E(X|Y=y) f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) dx f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) f_Y(y) dx dy \\ &= \int \int x f_{XY} (x,y) dx dy \\ &= \int x \left(\int f_{XY} (x,y) dy \right) dx \\ &= \int x f_X(x) dx = E(X) \end{align}$

Rivendicazione 2 : $E(Y - f(X))^2 \geq E(Y - E(Y|X))^2, \forall f$

Prova :

\begin{aligned} E ((Y - f (X))^{2} | X) & = E (([Y - E (Y | X)] + [E (Y | X) - f (X)])^{2} | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 E ((Y - E (Y | X)) (E (Y | X) - f (X)) | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 (E (Y | X) - f (X)) E (Y - E (Y | X)) | X) \\ (since E (Y | X) - f (X) is constant given X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) ( use Claim 1) \\ \geq E ((Y - E (Y | X))^{2} | X) \end{aligned}

$\begin{align} E((Y - f(X))^2 | X) &= E( ([Y - E(Y|X)] + [E(Y|X) - f(X)])^2|X) \\ &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 E((Y - E(Y|X))(E(Y|X) - f(X))|X) \\ &=E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 (E(Y|X) - f(X)) E(Y - E(Y|X))|X) \\[5pt] &( \text{ since } E(Y|X) - f(X) \text{ is constant given } X) \\[5pt] &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) \text{ ( use Claim 1 }) \\ &\geq E((Y-E(Y|X))^2 |X) \end{align}$

Prendendo le aspettative entrambi i lati dell'equazione di cui sopra danno la rivendicazione 2 (QED)

Pertanto, la f ottimale è $f(X) = E(Y|X)$

— thanhtang
fonte