Elevata varianza della convalida incrociata con esclusione


15

Ho letto più volte che la convalida incrociata "Leave-one-out" ha una varianza elevata a causa della grande sovrapposizione delle pieghe di allenamento. Tuttavia, non capisco perché: le prestazioni della convalida incrociata non dovrebbero essere molto stabili (bassa varianza) proprio perché i set di addestramento sono quasi identici? O sto avendo una comprensione sbagliata del concetto di "varianza" del tutto?

Inoltre non capisco fino in fondo come LOO può essere imparziale, ma con una varianza elevata? Se la stima LOO è uguale al valore reale dello stimatore in aspettativa, come può quindi avere una varianza elevata?

Nota: so che c'è una domanda simile qui: Perché la varianza di validazione incrociata (LOOCV) per la stima media dell'errore è elevata? Tuttavia, la persona che ha risposto afferma più avanti nei commenti che, nonostante i voti positivi, ha realizzato che la sua risposta è sbagliata.


2
Sono quella persona :-) ma tieni presente che, prima, ho già da tempo aggiornato la mia risposta per rimuovere la confusione e, in secondo luogo, l'intero thread viene chiuso come duplicato di un altro thread: stats.stackexchange.com/ domande / 61783 . Hai guardato lì? La tua Q mi sembra essere anche una copia di quella. Se non sei soddisfatto della risposta fornita, prendi in considerazione di formulare la tua domanda in modo più specifico. In questo momento voterò per chiudere, ma sentiti libero di modificare il tuo Q.
amoeba dice Reinstate Monica,


3
Bene, è facile: lascia che il valore reale di un parametro sia . Uno stimatore che produce 0,49 , 0,51 , 0,49 , 0,51 ... è imparziale e presenta una varianza relativamente bassa, ma anche uno stimatore che produce 0,1 , 0,9 , 0,1 , 0,9 ... è imparziale ma presenta una varianza molto più elevata. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
ameba dice di reintegrare Monica il

5
Per quanto riguarda il tuo primo paragrafo: devi pensare alla varianza tra le diverse realizzazioni dell'intero set di dati . Per un dato set di dati, LOOCV produrrà effettivamente modelli molto simili per ogni divisione perché i set di allenamento si intersecano così tanto (come hai detto), ma questi modelli possono essere tutti insieme lontani dal modello reale ; attraverso i set di dati, saranno molto distanti in direzioni diverse, quindi con una varianza elevata. È così che lo capisco qualitativamente.
ameba dice di reintegrare Monica il

2
@amoeba, perché non trasformare questi commenti in una risposta ufficiale?
gung - Ripristina Monica

Risposte:


10

Probabilmente questa domanda finirà per essere chiusa come un duplicato della varianza e del pregiudizio nella convalida incrociata: perché il CV congedo unico ha una varianza più elevata? , ma prima che accada penso che trasformerò i miei commenti in una risposta.

Inoltre non capisco fino in fondo come LOO può essere imparziale, ma con una varianza elevata?

Considera un semplice esempio. Lascia che il valore reale di un parametro sia . Uno stimatore che produce 0,49 , 0,51 , 0,49 , 0,51 ... è imparziale e presenta una varianza relativamente bassa, ma anche uno stimatore che produce 0,1 , 0,9 , 0,1 , 0,9 ... è imparziale ma ha una varianza molto più elevata.0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

Le prestazioni della convalida incrociata non dovrebbero essere molto stabili (bassa varianza) proprio perché i set di addestramento sono quasi identici?

Devi pensare alla varianza tra le diverse realizzazioni dell'intero set di dati. Per un dato set di dati, la convalida incrociata "one-out-one" produrrà in effetti modelli molto simili per ciascuna suddivisione poiché i set di addestramento si intersecano così tanto (come hai notato correttamente), ma questi modelli possono essere tutti insieme lontani dal modello reale; attraverso i set di dati, saranno molto distanti in direzioni diverse, quindi con una varianza elevata.

Almeno è così che lo capisco. Si prega di consultare i thread collegati per ulteriori discussioni e gli articoli di riferimento per ulteriori discussioni.


2
Quindi, a quanto ho capito, viene dato un basso pregiudizio perché il set di addestramento è molto grande, quasi identico all'intero set di dati (poiché solo un campione di dati viene lasciato fuori per i test). Quindi, per un particolare set di dati possiamo aspettarci una stima molto buona. Tuttavia, a causa di questa elevata correlazione delle pieghe (la crossvalidation viene quasi eseguita su dati identici nelle sue iterazioni), la stima è anche molto specifica per questo particolare set di dati, con conseguente elevata varianza tra le prestazioni su set di dati diversi dalla stessa distribuzione sottostante . Corretta?
Pegah,

2
Penso che sia per lo più corretto, ma bisogna stare attenti a dirlo for one particular dataset we can expect a very good estimation. Immagino che si possa interpretarlo nel senso che la stima di alcuni parametri specifici del set di dati sarà buona. Ma in generale la convalida incrociata dovrebbe stimare un parametro di popolazione : quanto bene un certo tipo di modello può fare previsioni sulla variabile dipendente nella popolazione; e possiamo non aspettarci una buona stima di esso da LOOCV, a causa di quello che hai scritto (la stima è very specific for this particular dataset).
ameba dice di reintegrare Monica il

1
Dovrei aggiungere un avvertimento sul fatto che tutto ciò è la mia attuale comprensione, ma in generale trovo questo argomento piuttosto complicato e la mia esperienza con la convalida incrociata è limitata. Non sono un esperto.
ameba dice che ripristini Monica il

1
Posso chiederti perché lo trovi difficile? Sono curioso poiché questo potrebbe insegnarmi qualcosa su dove stare attento quando si tratta di CV o dove approfondire la mia conoscenza
Pegah,

2
Data la risposta accettata in questo thread , forse non è più necessario menzionare l'alta varianza di LOOCV in questa risposta, vale a dire, quindi l'alta varianza ? Ho pensato a queste domande per un po 'e non sono riuscito a trovare alcun motivo teorico per l'alta varianza di LOOCV nei problemi di regressione continua ("continua"?), Anche se vedo il punto di Paul nei commenti nel thread collegato che LOOCV fallisce se il tuo campione contiene duplicati di ogni punto.
Richard Hardy,

1

Questa elevata varianza è rispetto allo spazio dei set di allenamento. Ecco perché LOOCV ha un'elevata varianza: in LOOCV, otteniamo un errore di predizione per ogni osservazione, diciamo l'osservazione i, usando l'intero set di dati osservato a parte questa osservazione. Quindi, il valore previsto per i dipende molto dall'insieme di dati corrente. Ora supponiamo di osservare un altro set di dati indipendente e di adattare un modello a questo nuovo set di dati. Se utilizziamo questo nuovo modello per ottenere un valore previsto per l'osservazione i, il valore previsto è potenzialmente molto diverso da quello valutato da LOOCV (sebbene corretto in media (imparziale)).

Questa è l'intuizione dietro l'alta varianza della previsione degli errori in LOOCV.

Tuttavia, se stai utilizzando LOOCV per confrontare i risultati di un modello con diversi iperparametri, credo che tu possa utilizzare LOOCV in modo sicuro per stimare gli errori di previsione, a condizione che il vero valore dell'errore di previsione non sia di tuo interesse, cioè desideri semplicemente confronta i diversi modelli che hanno impostato l'allenamento osservato e non ti interessa il vero errore reale da stimare.

Detto questo, come regola generale, se hai un piccolo campione, usa LOOCV, altrimenti usa k-fold CV con un valore più piccolo per k.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.