Termine di varianza nella decomposizione bias-varianza della regressione lineare


9

In 'Gli elementi di apprendimento statistico', l'espressione di bias-varianza decomposizione lineare modello figura come dove è la funzione target effettiva,

Err(X0)=σε2+E[f(X0)-Ef^(X0)]2+||h(X0)||2σε2,
f(X0)σε2 è la varianza dell'errore casuale nel modello e è lo stimatore lineare di .y=f(X)+εf^(X)f(X)

Il termine varianza mi preoccupa qui perché l'equazione implica che la varianza sarebbe zero se gli obiettivi fossero silenziosi, cioèMa non ha senso per me perché anche con zero noise posso ancora ottenere diversi stimatori per diversi set di allenamento che implica che la varianza è diversa da zero.σε2=0.f^(X0)

Ad esempio, supponiamo che la funzione target sia quadratica e che i dati di allenamento contengano due punti campionati a caso da questa quadratica; chiaramente, otterrò un diverso adattamento lineare ogni volta che campionerò due punti in modo casuale dal bersaglio quadratico. Allora come può la varianza essere zero?f(X0)

Qualcuno può aiutarmi a scoprire cosa c'è che non va nella mia comprensione della decomposizione della bias-varianza?

Risposte:


6

C'è sempre una sottigliezza in agguato nei trattamenti di parzialità e varianza, ed è importante prestare molta attenzione ad esso durante lo studio. Se rileggi le prime parole di ESL in una sezione di quel capitolo, gli autori le prestano un certo rispetto.

Le discussioni sulla stima del tasso di errore possono confondere, perché dobbiamo chiarire quali quantità sono fisse e quali sono casuali

La sottigliezza è ciò che è fisso e ciò che è casuale .

Nei trattamenti tradizionali di regressione lineare, i dati sono trattati come fissi e noti. Se segui gli argomenti in ESL, scoprirai che anche gli autori stanno facendo questo assunto. Sotto queste ipotesi, il tuo esempio non entrano in gioco, come l' unica rimasta fonte di casualità dalla distribuzione condizionata di Y data X . Se aiuta, potresti voler sostituire la notazione E r r ( x 0 ) nella tua mente con E r r ( x 0X ) .XyXErr(X0)Err(X0|X)

Ciò non vuol dire che la tua preoccupazione non sia valida, è certamente vero che la selezione dei dati di allenamento introduce effettivamente la casualità nel nostro algoritmo modello e un professionista diligente tenterà di quantificare l'effetto di questa casualità sui loro risultati. In effetti, puoi vedere chiaramente che le pratiche comuni di bootstrap e validazione incrociata incorporano esplicitamente queste fonti di casualità nelle loro inferenze.

XX


XY|X(X,Y)E=EXEY|XVun'r(f^(X0))=EX[||h(X0)||2σε2]σε2

La mia ipotesi è che gli autori presumano che il modello sia correttamente specificato, cioè includa tutti e solo i predittori rilevanti con le trasformazioni corrette. Dovrei tornare al libro invece di fare affidamento sulla mia memoria per confermare.
Matthew Drury,

Se per "correttamente specificato" intendi che la funzione target è effettivamente lineare, allora capisco che il rumore zero implicherebbe un errore zero. Ma risulta anche se la funzione target non è lineare, otteniamo la stessa espressione esatta per la varianza.
Abhinav Gupta,

1
È vero, ma in tal caso "correttamente specificato" significherebbe che stavi usando la regressione lineare per adattarsi a un modello che include i predittori corretti. Quindi, se la relazione vera è quadratica, allora supponeresti che il tuo modello includa i termini quadratici.
Matthew Drury,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.