perché i modelli appresi con CV one-out-out avrebbero una varianza maggiore?
[TL: DR] Un riassunto dei post e dei dibattiti recenti (luglio 2018)
Questo argomento è stato ampiamente discusso sia su questo sito, sia nella letteratura scientifica, con opinioni, intuizioni e conclusioni contrastanti. Già nel 2013, quando questa domanda è stato chiesto prima, l'opinione dominante era che LOOCV porta alla più grande varianza dell'errore generalizzazione atteso di un algoritmo di formazione la produzione di modelli di campioni di dimensione .n(K−1)/K
Questa visione, tuttavia, sembra essere una generalizzazione errata di un caso speciale e direi che la risposta corretta è: "dipende ..."
Parafrasando Yves Grandvalet, autore di un articolo del 2004 sull'argomento, riassumerei l'argomento intuitivo come segue:
- Se la convalida incrociata calcolava la media di stime indipendenti : quindi il CV lasciato in sospeso uno dovrebbe vedere una varianza relativamente più bassa tra i modelli poiché stiamo spostando solo un punto dati tra le pieghe e quindi i set di addestramento tra le pieghe si sovrappongono sostanzialmente.
- Questo non è vero quando i set di allenamento sono altamente correlati : la correlazione può aumentare con K e questo aumento è responsabile dell'aumento complessivo della varianza nel secondo scenario. Intuitivamente, in quella situazione, il CV lasciato in sospeso può essere cieco alle instabilità esistenti, ma potrebbe non essere innescato cambiando un singolo punto nei dati di allenamento, il che lo rende altamente variabile alla realizzazione del set di addestramento.
Simulazioni sperimentali da parte mia e degli altri su questo sito, così come quelle dei ricercatori nei documenti collegati di seguito, mostreranno che non esiste una verità universale sull'argomento. La maggior parte degli esperimenti hanno monotona decrescente o costante contrasto con , ma alcuni casi particolari mostrano crescente disaccordo con K .KK
Il resto di questa risposta propone una simulazione su un esempio di giocattolo e una revisione informale della letteratura.
[Aggiornamento] È possibile trovare qui una simulazione alternativa per un modello instabile in presenza di valori anomali.
Simulazioni da un esempio di giocattolo che mostrano una variazione decrescente / costante
Considera il seguente esempio di giocattolo in cui stiamo adattando un polinomio di grado 4 a una curva sinusoidale rumorosa. Prevediamo che questo modello non funzionerà bene per piccoli set di dati a causa di un overfitting, come mostrato dalla curva di apprendimento.

Si noti che tracciamo 1 - MSE qui per riprodurre l'illustrazione dalla pagina 243 di ESLII
Metodologia
Puoi trovare il codice per questa simulazione qui . L'approccio era il seguente:
- sin(x)+ϵϵ
- iN
- i
- K
- Memorizza l'errore medio quadrato medio (MSE) attraverso le pieghe K.
- iiK
- K{5,...,N}
Ki
Lato sinistro : Kfolds per 200 punti dati, Lato destro : Kfolds per 40 punti dati

Deviazione standard di MSE (attraverso i set di dati i) rispetto a Kfolds

Da questa simulazione, sembra che:
- N=40KK=10K
- K≤5
- N=200K
Una revisione della letteratura informale
I tre documenti seguenti esaminano la propensione e la varianza della convalida incrociata
Kohavi 1995
Questo documento viene spesso indicato come la fonte dell'argomento secondo cui LOOC ha una varianza più elevata. Nella sezione 1:
"Ad esempio, il congedo è quasi imparziale, ma presenta una varianza elevata, portando a stime inaffidabili (Efron 1983)"
Questa affermazione è fonte di molta confusione, perché sembra provenire da Efron nel 1983, non da Kohavi. Sia le argomentazioni teoriche di Kohavi che i risultati sperimentali vanno contro questa affermazione:
Corollary 2 (Varianza in CV)
k
Esperimento
Nel suo esperimento, Kohavi confronta due algoritmi: un albero decisionale C4.5 e un classificatore Naive Bayes su più set di dati dal repository UC Irvine. I suoi risultati sono al di sotto: LHS è precisione vs pieghe (es. Bias) e RHS è deviazione standard vs pieghe

In effetti, solo l'albero delle decisioni su tre set di dati ha chiaramente una varianza più elevata per l'aumento di K. Altri risultati mostrano una varianza decrescente o costante.
Infine, sebbene la conclusione possa essere formulata in modo più deciso, non c'è argomento per LOO che abbia una varianza più elevata, al contrario. Dalla sezione 6. Riepilogo
"La convalida incrociata di k-fold con valori di k moderati (10-20) riduce la varianza ... Man mano che k-diminuisce (2-5) e i campioni si riducono, c'è una varianza dovuta all'instabilità dei set di addestramento stessi.
Zhang e Yang
Gli autori hanno una visione forte di questo argomento e dichiarano chiaramente nella Sezione 7.1
In effetti, nella regressione lineare dei minimi quadrati, Burman (1989) mostra che tra i CV di k-fold, nella stima dell'errore di predizione, LOO (cioè CV di n-fold) presenta il minimo pregiudizio e varianza asintotici. ...
... Quindi un calcolo teorico ( Lu , 2007) mostra che LOO ha il minimo bias e varianza allo stesso tempo tra tutti i CV di cancellazione-n con tutte le possibili cancellazioni n_v considerate
Risultati sperimentali
Allo stesso modo, gli esperimenti di Zhang puntano nella direzione della varianza decrescente con K, come mostrato sotto per il modello True e il modello sbagliato per Figura 3 e Figura 5.


K
Tuttavia, se si tratta della selezione del modello, le prestazioni di LOO peggiorano nella variabilità man mano che l'incertezza nella selezione del modello aumenta a causa dell'ampio spazio del modello, dei coefficienti di penalità ridotti e / o dell'uso di coefficienti di penalità basati sui dati