Domanda sul compromesso della varianza


15

Sto cercando di capire il compromesso di bias-varianza, la relazione tra il bias dello stimatore e il bias del modello e la relazione tra la varianza dello stimatore e la varianza del modello.

Sono giunto a queste conclusioni:

  • Tendiamo a sovrautilizzare i dati quando trascuriamo il bias dello stimatore, cioè quando miriamo solo a minimizzare il bias del modello trascurando la varianza del modello (in altre parole miriamo solo a minimizzare la varianza dello stimatore senza considerare anche il pregiudizio dello stimatore)
  • Viceversa, tendiamo a sottovalutare i dati quando trascuriamo la varianza dello stimatore, cioè quando miriamo solo a minimizzare la varianza del modello trascurando la distorsione del modello (in altre parole miriamo solo a minimizzare la distorsione del stimatore senza considerare anche la varianza dello stimatore).

Le mie conclusioni sono corrette?


John, penso che ti piacerà leggere questo articolo di Tal Yarkoni e Jacob Westfall - fornisce un'interpretazione intuitiva del trade-off di bias-varianza: jakewestfall.org/publications/… .
Isabella Ghement,

Risposte:


22

Beh, in un certo senso. Come affermato, attribuisci l'intenzione allo scienziato di ridurre al minimo la distorsione o la variazione. In pratica, non puoi osservare esplicitamente il bias o la varianza del tuo modello (se potessi, allora conosceresti il ​​vero segnale, nel qual caso non avresti bisogno di un modello). In generale, è possibile osservare il tasso di errore del modello solo su un set di dati specifico e si cerca di stimare il tasso di errore fuori campione utilizzando varie tecniche creative.

Ora fai a sapere che, almeno in teoria, questo tasso di errore può essere scomposta in termini di polarizzazione e varianza, ma non è possibile osservare direttamente questo equilibrio in ogni situazione specifica concreta. Quindi riaffermerei leggermente le tue osservazioni come:

  • Un modello è inadeguato ai dati quando il termine di polarizzazione contribuisce alla maggior parte dell'errore fuori campione.
  • Un modello è troppo adatto ai dati quando il termine di varianza contribuisce alla maggior parte dell'errore fuori campione.

In generale, non esiste un vero modo per saperlo con certezza, in quanto non si può mai veramente osservare il pregiudizio del modello. Tuttavia, ci sono vari modelli di comportamento che sono indicativi di trovarsi in una situazione o in un'altra:

  • I modelli di overfit tendono ad avere una bontà molto peggiore delle prestazioni di adattamento su un set di dati di test rispetto a un set di dati di allenamento.
  • I modelli Underfit tendono ad avere la stessa bontà delle prestazioni in forma su un set di dati test vs. training.

Questi sono gli schemi che si manifestano nei famosi grafici dei tassi di errore in base alla complessità del modello, questo è tratto da The Elements of Statistical Learning:

modelComplexity

Spesso questi grafici sono sovrapposti con una curva di polarizzazione e varianza. Ho preso questo da questa bella esposizione :

inserisci qui la descrizione dell'immagine

Ma è molto importante rendersi conto che in realtà non si vedono mai queste curve aggiuntive.


4

Illustrando il pregiudizio - Varianza: un esempio di giocattolo

Come sottolinea @Matthew Drury, in situazioni realistiche non riesci a vedere l'ultimo grafico, ma il seguente esempio di giocattolo può fornire interpretazione visiva e intuizione a coloro che lo trovano utile.

Set di dati e ipotesi

Y

  • Y=sin(πx0.5)+ϵϵUniform(-0.5,0.5)
  • Y=f(X)+ε

XYVun'r(Y)=Vun'r(ε)=112

Adatteremo un modello di regressione lineare e polinomiale a questo set di dati del modulo f^(X)=β0+β1X+β1X2+...+βpXp.

Adatto a vari modelli di polinomi

Intuitivamente, ci si aspetterebbe che una curva a retta funzioni male poiché l'insieme di dati è chiaramente non lineare. Allo stesso modo, l'inserimento di un polinomio di ordine molto elevato potrebbe essere eccessivo. Questa intuizione si riflette nel grafico sotto che mostra i vari modelli e il loro corrispondente errore quadrato medio per i dati di treno e di prova.

inserisci qui la descrizione dell'immagine

Il grafico sopra funziona per una singola divisione treno / prova ma come facciamo a sapere se si generalizza?

Stima del treno previsto e prova MSE

Qui abbiamo molte opzioni, ma un approccio è quello di dividere casualmente i dati tra treno / test - adattare il modello alla divisione data e ripetere questo esperimento molte volte. Il MSE risultante può essere tracciato e la media è una stima dell'errore previsto.

inserisci qui la descrizione dell'immagine

È interessante notare che il test MSE fluttua selvaggiamente per diverse suddivisioni treno / test dei dati. Ma prendere la media su un numero sufficientemente ampio di esperimenti ci dà una maggiore fiducia.

Nota la linea tratteggiata grigia che mostra la varianza di Ycalcolato all'inizio. Sembra che in media il test MSE non sia mai inferiore a questo valore

 Distorsione: decomposizione della varianza

Come spiegato qui, l'MSE può essere suddiviso in 3 componenti principali:

E[(Y-f^)2]=σε2+Bioun'S2[f^]+Vun'r[f^]
E[(Y-f^)2]=σε2+[f-E[f^]]2+E[f^-E[f^]]2

Dove nella nostra custodia dei giocattoli:

  • f è noto dal set di dati iniziale
  • σε2 è noto dalla distribuzione uniforme di ε
  • E[f^] può essere calcolato come sopra
  • f^ corrisponde a una linea leggermente colorata
  • E[f^-E[f^]]2 può essere stimato prendendo la media

Dare la seguente relazione

inserisci qui la descrizione dell'immagine

Nota: il grafico sopra utilizza i dati di addestramento per adattarsi al modello e quindi calcola l'MSE su train + test .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.