Spiegazione intuitiva del compromesso di bias varianza?


Risposte:


24

Immagina alcuni dati 2D - diciamo l'altezza rispetto al peso per gli studenti delle scuole superiori - tracciati su una coppia di assi.

Supponiamo ora di inserirvi una linea retta. Questa linea, che ovviamente rappresenta un insieme di valori previsti, ha una varianza statistica zero. Ma il pregiudizio è (probabilmente) elevato, ovvero non si adatta molto bene ai dati.

Supponiamo quindi di modellare i dati con una spline polinomiale di alto grado. Non sei soddisfatto dell'adattamento, quindi aumenti il ​​grado polinomiale fino a quando l'adattamento non migliora (e, di fatto, con precisione arbitraria). Ora hai una situazione con distorsione che tende a zero, ma la varianza è molto alta.

Si noti che il compromesso di bias-varianza non descrive una relazione proporzionale - cioè, se si traccia il bias contro la varianza, non si vedrà necessariamente una linea retta attraverso l'origine con la pendenza -1. Nell'esempio di spline polinomiale sopra, ridurre il grado quasi certamente aumenta la varianza molto meno di quanto diminuisca la distorsione.

Il compromesso della variazione di bias è inoltre incorporato nella funzione di errore somma dei quadrati. Di seguito, ho riscritto (ma non modificato) la solita forma di questa equazione per sottolineare questo:

testo alternativo

Sul lato destro, ci sono tre termini: il primo di questi è solo l'errore irriducibile (la varianza nei dati stessi); questo è al di fuori del nostro controllo, quindi ignoralo. Il secondo termine è il quadrato del pregiudizio ; e il terzo è la varianza . È facile vedere che mentre uno sale, l'altro scende: non possono entrambi variare insieme nella stessa direzione. In altre parole, puoi pensare alla regressione dei minimi quadrati come (implicitamente) a trovare la combinazione ottimale di distorsione e varianza tra i modelli candidati.


8
Ho problemi a comprendere l'equazione; Non riesco a trovare alcun modo per giustificarlo. Anche un'analisi delle unità di base identifica i problemi. Supponiamo che sia misurato in parsecs e in drams, ad esempio, in modo che e il suo stimatore (sia quello che significa il puntino sopra )? Quindi lhs e sono parsec quadrati; il termine medio su rhs è il quadrato di una differenza tra un parsec ( ) e un parsec per dramm (a causa della divisione per ); e l'ultimo termine su rhs è parsecs al quadrato per dramma. Non è valido aggiungere nessuno di questi termini tra loro! x f f σ 2 f ( x ) xyxffσ2f(x)x
whuber

l'equazione va bene (le piccole lettere greche nel numeratore non sono "x" ma "kappa"). Prova questo: inizia con una formula per SSE con cui ti senti a tuo agio e solo pochi passaggi ti porteranno a quello sopra.
Doug l'

Cosa è "kappa" in questo contesto?

Sono un noob. Potete aiutarmi a capire intuitivamente perché nella prima parte della vostra risposta affermate che l'adattamento di una spline polinomiale fa aumentare la varianza?
Rohit Banga,

3
Un esempio più semplice: y = a + b x + e (rror). Se inserisco una costante in questo, bias = b x e variance = var (e) + la varianza della mia stima di a attorno al valore reale. Se aggiungo un termine b * x al modello, il bias è zero ovunque, ma ora la varianza include gli effetti dell'errore della mia stima di b e di ae la varianza di e, quindi sarà maggiore rispetto al primo Astuccio. Quindi c'è un compromesso tra distorsione ridotta, ottenuta aggiungendo termini al modello che dovrebbe essere lì, e maggiore varianza, ottenuta dovendo stimare quei termini e, possibilmente, aggiungendo quelli irrilevanti.
jbowman,

25

Supponiamo che stiate prendendo in considerazione un'assicurazione sanitaria catastrofica e che vi sia una probabilità dell'1% di ammalarsi che costerebbe 1 milione di dollari. Il costo previsto per ammalarsi è quindi di 10.000 dollari. La compagnia assicurativa, che desidera ottenere un profitto, addebiterà 15.000 per la polizza.

L'acquisto della polizza ti dà un costo atteso di 15.000, che ha una varianza di 0 ma può essere considerato distorto poiché è 5.000 in più rispetto al costo reale previsto di ammalarsi.

Non acquistare la polizza comporta un costo atteso di 10.000, che è imparziale poiché equivale al vero costo atteso di ammalarsi, ma presenta una varianza molto elevata. Il compromesso qui è tra un approccio che è costantemente sbagliato ma mai di gran lunga e un approccio che è corretto in media ma è più variabile.


15

Consiglio vivamente di dare un'occhiata al corso Caltech ML di Yaser Abu-Mostafa, Lecture 8 (Bias-Variance Tradeoff) . Ecco i contorni:

Supponiamo che tu stia cercando di imparare la funzione seno:

testo alternativo

Il nostro set di formazione comprende solo 2 punti dati.

Proviamo a farlo con due modelli, e :h0(x)=bh1(x)=ax+b

Per , quando proviamo con molti set di allenamento diversi (ovvero selezioniamo ripetutamente 2 punti dati ed eseguiamo l'apprendimento su di essi), otteniamo (il grafico a sinistra rappresenta tutti i modelli appresi, il grafico a destra rappresenta il loro g medio e la loro varianza (area grigia)):h0(x)=b

inserisci qui la descrizione dell'immagine

Per , quando proviamo con molti set di allenamento diversi, otteniamo:h1(x)=ax+b

inserisci qui la descrizione dell'immagine

Se confrontiamo il modello appreso con e , possiamo vedere che produce modelli più semplici di , quindi una varianza inferiore se consideriamo tutti i modelli appresi con , ma il modello g migliore (in rosso nel grafico) appreso con è migliore del miglior modello appreso g con , quindi un pregiudizio inferiore con :h0h1h0h1h0h1h0h1

inserisci qui la descrizione dell'immagine


Se si osserva l'evoluzione della funzione di costo rispetto alla dimensione del set di formazione (figure di Coursera - Machine Learning di Andrew Ng ):

Distorsione elevata:

inserisci qui la descrizione dell'immagine

Alta varianza:

inserisci qui la descrizione dell'immagine


+1, molto elaborativo. Prendiamo come esempio, abbiamo disegnato molti diversi campioni , ciascuno con 2 punti, quindi abbiamo addestrato molti modelli ciascuno con una stima dei parametri del modello diversa , giusto? E per un input specifico , different fornisce una previsione diversa , quindi il valore target previsto è una variabile casuale che varia con la stima dei parametri del modello . E il pregiudizio e la varianza nel tuo fico sono calcolati per ogni previsto , giusto? Ho ragione? D i ( una i , b i ) Ix 0 ( un i , b i ) y 0 y 0 ( un , b ) x yh1Di(a^i,b^i)x0(a^i,b^i)y^0y^0(a^,b^)xy^
avocado

la tua funzione sinusoidale è invertita XP
Diego

1
Questo è un b / c confuso che sembra riferirti a trame che non ci sono (forse il "testo alternativo").
gung - Ripristina Monica

@gung fixed, grazie per averlo sottolineato. ImageShack chiude gli account gratuiti e cancella le immagini . E Stack Exchange non è riuscito a prendere le misure appropriate. Correlati: vietare le immagini di ImageShack perché stanno riutilizzando vecchi URL per la pubblicità (si prega di supportare il divieto); Qual è il modo più semplice per scaricare tutte le mie domande + risposte su tutti i siti di Stack Exchange? (Sono contento di avere un backup; si prega di premere StackExchange per fornire strumenti migliori per il backup dei contenuti)
Franck Dernoncourt,

Grazie per aver condiviso il link del video, Spiega bene cosa stavo cercando, ora posso capire la tua risposta
Espoir Murhabazi,

13

Di solito penso a queste due immagini:

Innanzitutto, significato di parzialità e varianza:

Comprensione del pregiudizio e della varianza

Immagina che il centro della regione dell'occhio dei tori rossi sia il vero valore medio della nostra variabile casuale target che stiamo cercando di prevedere, e la regione rossa indica la diffusione della varianza di questa variabile. Ogni volta che prendiamo un campione di osservazioni e prediamo il valore di questa variabile, tracciamo un punto blu. Abbiamo previsto correttamente se il punto blu rientra nella regione rossa. In altre parole, la distorsione è la misura di quanto sono lontani i punti blu previsti dalla vera regione rossa, intuitivamente si tratta di un errore. La varianza è quanto siano disperse le nostre previsioni.

Ora il compromesso qui è:

Il compromesso tra pregiudizio e varianza

quando proviamo a ridurre uno di questi parametri (bias o varianza), l'altro parametro aumenta. Ma c'è un punto debole tra una distorsione non tanto minore e una varianza non così bassa che produce a lungo termine un errore di predizione minore.

Queste immagini sono tratte da http://scott.fortmann-roe.com/docs/BiasVariance.html . Controlla le spiegazioni con regressione lineare e K-vicini più vicini per maggiori dettagli


la prima cifra assomiglia più a precisione vs accuratezza?
KingBoomie,

0

Ecco una spiegazione molto semplice. Immagina di avere un diagramma a dispersione di punti {x_i, y_i} che sono stati campionati da una certa distribuzione. Vuoi adattare un modello ad esso. Puoi scegliere una curva lineare o una curva polinomiale di ordine superiore o qualcos'altro. Qualunque cosa tu scelga, verrà applicata per prevedere nuovi valori y per un insieme di {x_i} punti. Chiamiamo questi il ​​set di validazione. Supponiamo che tu conosca anche i loro veri valori {y_i} e li stiamo usando solo per testare il modello.

I valori previsti saranno diversi dai valori reali. Possiamo misurare le proprietà delle loro differenze. Consideriamo solo un singolo punto di convalida. Chiamalo x_v e scegli un modello. Facciamo una serie di previsioni per quell'unico punto di validazione usando diciamo 100 diversi campioni casuali per addestrare il modello. Quindi otterremo 100 valori y. La differenza tra la media di questi valori e il valore vero è chiamata distorsione. La varianza della distribuzione è la varianza.

A seconda del modello che utilizziamo, possiamo scambiare tra questi due. Consideriamo i due estremi. Il modello con varianza più bassa è quello in cui ignora completamente i dati. Diciamo che prevediamo semplicemente 42 per ogni x. Quel modello ha varianza zero tra diversi campioni di allenamento in ogni punto. Tuttavia è chiaramente di parte. Il bias è semplicemente 42-y_v.

Dall'altro estremo possiamo scegliere un modello che si veste il più possibile. Ad esempio, adatta un polinomio di 100 gradi a 100 punti dati. O in alternativa, interpolare linearmente tra i vicini più vicini. Questo ha un basso pregiudizio. Perché? Perché per qualsiasi campione casuale i punti vicini a x_v fluttueranno ampiamente ma interpoleranno più in alto con la stessa frequenza con cui si interpolano in basso. Quindi, in media tra i campioni, si annulleranno e il bias sarà quindi molto basso a meno che la curva reale non abbia molte variazioni di alta frequenza.

Tuttavia, questi modelli di overfit hanno una grande varianza tra i campioni casuali perché non stanno uniformando i dati. Il modello di interpolazione utilizza solo due punti dati per prevedere quello intermedio e quindi creano molto rumore.

Si noti che il bias viene misurato in un singolo punto. Non importa se è positivo o negativo. È ancora un pregiudizio per ogni dato x. I pregiudizi mediati su tutti i valori x saranno probabilmente piccoli ma ciò non lo rende imparziale.

Un altro esempio. Supponiamo che tu stia provando a prevedere la temperatura in un determinato luogo negli Stati Uniti in qualche momento. Supponiamo che tu abbia 10.000 punti di allenamento. Ancora una volta, puoi ottenere un modello a bassa varianza facendo qualcosa di semplice semplicemente restituendo la media. Ma questo sarà di parte bassa nello stato della Florida e di parte alta nello stato dell'Alaska. Sarebbe meglio se usassi la media per ogni stato. Ma anche allora, sarai sbilanciato in alto in inverno e basso in estate. Quindi ora includi il mese nel tuo modello. Ma sarai ancora di parte in basso nella Death Valley e in alto sul Monte Shasta. Quindi ora vai al livello di granularità del codice postale. Ma alla fine se continui a farlo per ridurre la distorsione, finisci i punti dati. Forse per un determinato codice postale e mese, hai solo un punto dati. Chiaramente questo creerà molta varianza. Quindi vedi che avere un modello più complicato riduce la distorsione a scapito della varianza.

Quindi vedi che c'è un compromesso. I modelli più fluidi hanno una varianza inferiore tra i campioni di allenamento ma non catturano anche la forma reale della curva. I modelli meno fluidi possono catturare meglio la curva ma a scapito di essere più rumorosi. Da qualche parte nel mezzo c'è un modello Goldilocks che fa un compromesso accettabile tra i due.


0

Immagina se l'attività di costruzione del modello possa essere ripetuta per diversi set di dati di addestramento, ovvero addestriamo ogni volta un nuovo modello per diversi set di dati (mostrato nella figura seguente). Se fissiamo un punto di dati di test e valutiamo la previsione del modello su questo punto, le previsioni verranno variate a causa della casualità nel processo di generazione del modello. Dalla figura seguente per questa situazione, P_1, P_2, ..., P_n sono previsioni diverse e anche casuali. inserisci qui la descrizione dell'immagine

Lascia che sia la media delle previsioni -

inserisci qui la descrizione dell'immagine

L'errore di errore è dovuto alla differenza tra la media di queste previsioni e il valore corretto. inserisci qui la descrizione dell'immagine

L'errore di varianza non è altro che la varianza in queste previsioni, ovvero quanto sono diverse queste previsioni. inserisci qui la descrizione dell'immagine

Questa è l'intuizione dietro l'errore di bias e varianza.

Per una spiegazione dettagliata, visitare la giusta intuizione dietro il compromesso della varianza di pregiudizio

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.