Pregiudizio e varianza nella validazione incrociata con esclusione K vs piega


83

Come si confrontano i diversi metodi di convalida incrociata in termini di varianza e distorsione del modello?

La mia domanda è in parte motivata da questa discussione: Numero ottimale di pieghe nella convalida incrociata fold: il CV congedo unico è sempre la scelta migliore? K. La risposta suggerisce che i modelli appresi con la convalida incrociata di tipo one-out hanno una varianza più elevata rispetto a quelli appresi con la convalida incrociata di tipo standard, rendendo il CV congedo-one-out una scelta peggiore.K

Tuttavia, la mia intuizione mi dice che nel CV one-out-out si dovrebbe vedere una varianza relativamente più bassa tra i modelli rispetto al CV -fold, poiché stiamo spostando solo un punto dati tra le pieghe e quindi i set di allenamento tra le pieghe si sovrappongono sostanzialmente.K

O andando nella direzione opposta, se è basso nel CV K -old, i set di allenamento sarebbero abbastanza diversi tra le pieghe, e i modelli risultanti hanno maggiori probabilità di essere diversi (quindi varianza più elevata).KK

Se l'argomentazione di cui sopra è corretta, perché i modelli appresi con un CV lasciato in sospeso avrebbero una varianza più elevata?


2
Ciao Amelio. Si prega di notare che le simulazioni previste nella nuova risposta di Xavier e in questo Q più vecchio da Jake Westfall stats.stackexchange.com/questions/280665 , entrambi dimostrano che la varianza diminuisce con . Ciò contraddice direttamente la risposta attualmente accettata e anche la risposta più votata (precedentemente accettata). Non ho visto nessuna simulazione che sostenga l'affermazione che la varianza aumenta con K ed è la più alta per LOOCV. KK
ameba dice Reinstate Monica il

2
Grazie @amoeba, sto osservando i progressi su entrambe le risposte. Farò sicuramente del mio meglio per assicurarmi che la risposta accettata punti a quella più utile e corretta.
Amelio Vazquez-Reina,

1
@amoeba vedi researchgate.net/profile/Francisco_Martinez-Murcia/publication/… che mostra un aumento della varianza con k
Hanan Shteingart,

sarebbe interessante vedere da dove ottiene quel grafico, ad una prima occhiata alla tesi sembra che sia stato inventato per adattarsi alle sue spiegazioni nelle sezioni introduttive. Forse è una simulazione reale ma non è spiegata, e certamente non è il risultato dei suoi esperimenti reali che sono inferiori ...
Xavier Bourret Sicotte

Risposte:


51

perché i modelli appresi con CV one-out-out avrebbero una varianza maggiore?

[TL: DR] Un riassunto dei post e dei dibattiti recenti (luglio 2018)

Questo argomento è stato ampiamente discusso sia su questo sito, sia nella letteratura scientifica, con opinioni, intuizioni e conclusioni contrastanti. Già nel 2013, quando questa domanda è stato chiesto prima, l'opinione dominante era che LOOCV porta alla più grande varianza dell'errore generalizzazione atteso di un algoritmo di formazione la produzione di modelli di campioni di dimensione .n(K1)/K

Questa visione, tuttavia, sembra essere una generalizzazione errata di un caso speciale e direi che la risposta corretta è: "dipende ..."

Parafrasando Yves Grandvalet, autore di un articolo del 2004 sull'argomento, riassumerei l'argomento intuitivo come segue:

  1. Se la convalida incrociata calcolava la media di stime indipendenti : quindi il CV lasciato in sospeso uno dovrebbe vedere una varianza relativamente più bassa tra i modelli poiché stiamo spostando solo un punto dati tra le pieghe e quindi i set di addestramento tra le pieghe si sovrappongono sostanzialmente.
  2. Questo non è vero quando i set di allenamento sono altamente correlati : la correlazione può aumentare con K e questo aumento è responsabile dell'aumento complessivo della varianza nel secondo scenario. Intuitivamente, in quella situazione, il CV lasciato in sospeso può essere cieco alle instabilità esistenti, ma potrebbe non essere innescato cambiando un singolo punto nei dati di allenamento, il che lo rende altamente variabile alla realizzazione del set di addestramento.

Simulazioni sperimentali da parte mia e degli altri su questo sito, così come quelle dei ricercatori nei documenti collegati di seguito, mostreranno che non esiste una verità universale sull'argomento. La maggior parte degli esperimenti hanno monotona decrescente o costante contrasto con , ma alcuni casi particolari mostrano crescente disaccordo con K .KK

Il resto di questa risposta propone una simulazione su un esempio di giocattolo e una revisione informale della letteratura.

[Aggiornamento] È possibile trovare qui una simulazione alternativa per un modello instabile in presenza di valori anomali.

Simulazioni da un esempio di giocattolo che mostrano una variazione decrescente / costante

Considera il seguente esempio di giocattolo in cui stiamo adattando un polinomio di grado 4 a una curva sinusoidale rumorosa. Prevediamo che questo modello non funzionerà bene per piccoli set di dati a causa di un overfitting, come mostrato dalla curva di apprendimento.

inserisci qui la descrizione dell'immagine

Si noti che tracciamo 1 - MSE qui per riprodurre l'illustrazione dalla pagina 243 di ESLII

 Metodologia

Puoi trovare il codice per questa simulazione qui . L'approccio era il seguente:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Memorizza l'errore medio quadrato medio (MSE) attraverso le pieghe K.
  4. iiK
  5. K{5,...,N}

Ki

Lato sinistro : Kfolds per 200 punti dati, Lato destro : Kfolds per 40 punti dati

inserisci qui la descrizione dell'immagine

Deviazione standard di MSE (attraverso i set di dati i) rispetto a Kfolds

inserisci qui la descrizione dell'immagine

Da questa simulazione, sembra che:

  • N=40KK=10K
  • K5
  • N=200K

Una revisione della letteratura informale

I tre documenti seguenti esaminano la propensione e la varianza della convalida incrociata

Kohavi 1995

Questo documento viene spesso indicato come la fonte dell'argomento secondo cui LOOC ha una varianza più elevata. Nella sezione 1:

"Ad esempio, il congedo è quasi imparziale, ma presenta una varianza elevata, portando a stime inaffidabili (Efron 1983)"

Questa affermazione è fonte di molta confusione, perché sembra provenire da Efron nel 1983, non da Kohavi. Sia le argomentazioni teoriche di Kohavi che i risultati sperimentali vanno contro questa affermazione:

Corollary 2 (Varianza in CV)

k

Esperimento Nel suo esperimento, Kohavi confronta due algoritmi: un albero decisionale C4.5 e un classificatore Naive Bayes su più set di dati dal repository UC Irvine. I suoi risultati sono al di sotto: LHS è precisione vs pieghe (es. Bias) e RHS è deviazione standard vs pieghe

inserisci qui la descrizione dell'immagine

In effetti, solo l'albero delle decisioni su tre set di dati ha chiaramente una varianza più elevata per l'aumento di K. Altri risultati mostrano una varianza decrescente o costante.

Infine, sebbene la conclusione possa essere formulata in modo più deciso, non c'è argomento per LOO che abbia una varianza più elevata, al contrario. Dalla sezione 6. Riepilogo

"La convalida incrociata di k-fold con valori di k moderati (10-20) riduce la varianza ... Man mano che k-diminuisce (2-5) e i campioni si riducono, c'è una varianza dovuta all'instabilità dei set di addestramento stessi.

Zhang e Yang

Gli autori hanno una visione forte di questo argomento e dichiarano chiaramente nella Sezione 7.1

In effetti, nella regressione lineare dei minimi quadrati, Burman (1989) mostra che tra i CV di k-fold, nella stima dell'errore di predizione, LOO (cioè CV di n-fold) presenta il minimo pregiudizio e varianza asintotici. ...

... Quindi un calcolo teorico ( Lu , 2007) mostra che LOO ha il minimo bias e varianza allo stesso tempo tra tutti i CV di cancellazione-n con tutte le possibili cancellazioni n_v considerate

Risultati sperimentali Allo stesso modo, gli esperimenti di Zhang puntano nella direzione della varianza decrescente con K, come mostrato sotto per il modello True e il modello sbagliato per Figura 3 e Figura 5.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

K

Tuttavia, se si tratta della selezione del modello, le prestazioni di LOO peggiorano nella variabilità man mano che l'incertezza nella selezione del modello aumenta a causa dell'ampio spazio del modello, dei coefficienti di penalità ridotti e / o dell'uso di coefficienti di penalità basati sui dati


11
KK

4
@amoeba ecco un caso in cui LOOCV fallisce: considera n punti dati e un polinomio interpolante di grado n. Ora raddoppia il numero di punti dati aggiungendo un diritto duplicato su ciascun punto esistente. LOOCV dice che l'errore è zero. È necessario ridurre le pieghe per ottenere informazioni utili.
Paul,

2
Per chi è interessato a questa discussione - continuiamo nella chat: chat.stackexchange.com/rooms/80281/…
Xavier Bourret Sicotte

1
kfoldk=10

1
@amoeba: re Kohavi / LOO e varianza. Ho scoperto che LOO per alcuni modelli di classificazione può essere abbastanza (sorprendentemente) instabile. Ciò è particolarmente pronunciato in piccole dimensioni del campione e penso che sia correlato al caso di test che appartiene sempre alla classe che è sottorappresentata. l'intero campione: nella classificazione binaria congedo-2 stratificato non sembra avere questo problema (ma non ho testato ampiamente). Questa instabilità si aggiungerebbe alla varianza osservata, facendo sì che LOO rimanga fuori dalle altre scelte di k. IIRC, questo è coerente con i risultati di Kohavi.
cbeleites,

45

kkSSiSSiSi

k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

k

Tuttavia, si noti che mentre la duplice convalida incrociata non presenta il problema di sovrapposizioni di set di addestramento, spesso presenta anche una grande varianza poiché i set di addestramento hanno solo la metà delle dimensioni del campione originale. Un buon compromesso è la convalida incrociata di dieci volte.

Alcuni articoli interessanti che toccano questo argomento (su molti altri):


5
+1 (molto tempo fa), ma rileggendo ora la tua risposta, sono confuso dal seguente bit. Dici che il CV doppio "spesso ha anche una grande varianza perché i set di allenamento sono solo la metà delle dimensioni". Capisco che avere un allenamento impostato due volte più piccolo è un problema, ma perché dà "una grande varianza"? Non dovrebbe essere "grande distorsione" invece? Quindi l'intera questione della scelta del numero di pieghe diventa un compromesso di bias-varianza, ed è così che viene spesso presentato.
ameba dice che ripristini Monica

1
k

3
Stavo solo esaminando un po 'di letteratura. È interessante notare che in Introduzione all'apprendimento statistico James, Witten, Hastie e Tibshirani affermano che LOOCV "è altamente variabile, poiché si basa su una singola osservazione (x1, y1)". e in Elements of Statistical Learning Hastie & Tibshirani e Friedman affermano che LOOCV "può avere una varianza elevata perché i set di addestramento N sono così simili tra loro".

2
var[Σxi/n]ΣΣcov(xi,xj)/n2

3
No, non è proprio questo "punto". Le persone usano K-fold CV per ottenere una singola stima globale per tutto il tempo. Puoi certamente provare a utilizzare le stime delle pieghe multiple in altri modi, ma metterle insieme è uno dei modi più comuni per stimare le prestazioni di controllo di una tecnica di modellazione. Ed è esattamente ciò che sta facendo l'Eq 7.48 di ESL.
Paul,

27

K

Penso che la tua intuizione sia sensata se stai pensando alle previsioni fatte dai modelli su ogni piega a esclusione. Si basano su dati correlati / molto simili (il set di dati completo meno un punto dati) e pertanto effettueranno previsioni simili, ovvero una bassa variabilità.

La fonte di confusione è che quando le persone parlano di LOOCV che porta ad un'alta variabilità, non stanno parlando delle previsioni fatte dai molti modelli costruiti durante quel ciclo di convalida incrociata sui set di controllo. Invece, stanno parlando di quanta variabilità avrebbe il tuo modello finale scelto (quello scelto tramite LOOCV) se alleni quel modello / parametro esatto su nuovi set di allenamento - set di allenamento che il tuo modello non ha mai visto prima. In questo caso, la variabilità sarebbe elevata.

Perché la variabilità sarebbe alta? Semplificiamo un po 'questo. Immagina che invece di utilizzare LOOCV per scegliere un modello, hai avuto un solo set di training e quindi hai testato un modello creato utilizzando quei dati di training, diciamo 100 volte su 100 singoli punti di dati di test (i punti di dati non fanno parte del set di training) . Se scegli il modello e il set di parametri che fa il meglio tra quei 100 test, allora ne selezionerai uno che permetterà a questo particolare set di addestramento di essere davvero bravo a prevedere i dati del test. Potresti potenzialmente scegliere un modello che acquisisce il 100% delle associazioni tra quel particolare set di dati di addestramento e i dati di controllo. Sfortunatamente, alcune parti di quelle associazioni tra i set di dati di training e test saranno associazioni di rumore o spurie perché, sebbene il set di test cambi e tu possa identificare il rumore da questo lato, il set di dati di allenamento non funziona e non è possibile determinare quale varianza spiegata sia dovuta al rumore. In altre parole, ciò significa che hanno adattato le tue previsioni a questo particolare set di dati di allenamento.

Ora, se dovessi ri-addestrare questo modello con gli stessi parametri più volte su nuovi set di allenamento, cosa accadrebbe? Bene, un modello che si adatta a una particolare serie di dati di allenamento porterà a una variabilità nella sua previsione quando cambia la serie di allenamenti (cioè cambia leggermente la serie di allenamenti e il modello cambierà sostanzialmente le sue previsioni).

Poiché tutte le pieghe di LOOCV sono altamente correlate, è simile al caso precedente (stesso set di allenamento; punti di prova diversi). In altre parole, se quel determinato set di allenamento ha una correlazione spuria con quei punti di prova, il tuo modello avrà difficoltà a determinare quali correlazioni sono reali e quali sono false, perché anche se il set di prova cambia, il set di formazione non lo fa.

Al contrario, pieghe di allenamento meno correlate indicano che il modello sarà adatto a più set di dati univoci. Quindi, in questa situazione, se si riqualifica il modello su un altro nuovo set di dati, si otterrà una previsione simile (cioè una piccola variabilità).


4
Penso che questa risposta chiarisca molto più della risposta accettata e spieghi in particolare la risposta accettata.
D1X,

cosa intendi con> "Ora, se dovessi ri-addestrare questo modello con gli stessi parametri più volte su nuovi set di allenamento, cosa accadrebbe?". Allenarsi significa trovare i parametri, giusto? intendevi dire iperparametri?
MiloMinderbinder

14

Sebbene questa domanda sia piuttosto vecchia, vorrei aggiungere una risposta aggiuntiva perché penso che valga la pena chiarirla un po 'di più.

La mia domanda è in parte motivata da questa discussione: Numero ottimale di pieghe nella convalida incrociata di K-fold: il CV congedo unico è sempre la scelta migliore? . La risposta suggerisce che i modelli appresi con la convalida incrociata di tipo one-out hanno una varianza più elevata rispetto a quelli appresi con la convalida incrociata di tipo K-fold, rendendo il CV congedo una-scelta una scelta peggiore.

Questa risposta non lo suggerisce e non dovrebbe. Rivediamo la risposta fornita lì:

La convalida incrociata senza esclusione di solito non porta a prestazioni migliori rispetto a K-fold ed è più probabile che sia peggiore, poiché presenta una varianza relativamente elevata (ovvero il suo valore cambia di più per diversi campioni di dati rispetto al valore per k-fold cross-validation).

Sta parlando di prestazioni . Qui le prestazioni devono essere intese come le prestazioni dello stimatore di errori del modello . Ciò che si sta stimando con k-fold o LOOCV sono le prestazioni del modello, sia quando si utilizzano queste tecniche per scegliere il modello sia per fornire una stima dell'errore in sé. Questa NON è la varianza del modello, è la varianza dello stimatore dell'errore (del modello). Vedi l' esempio (*) sotto.

Tuttavia, la mia intuizione mi dice che nel CV one-out-one si dovrebbe vedere una varianza relativamente più bassa tra i modelli rispetto al CV K-fold, poiché stiamo spostando solo un punto dati tra le pieghe e quindi i set di allenamento tra le pieghe si sovrappongono sostanzialmente.

n2n

È proprio questa varianza più bassa e una maggiore correlazione tra i modelli che fa sì che lo stimatore di cui parlo sopra abbia più varianza, perché quello stimatore è la media di queste quantità correlate e la varianza della media dei dati correlati è maggiore di quella dei dati non correlati . Qui viene mostrato perché: varianza della media dei dati correlati e non correlati .

O andando nella direzione opposta, se K è basso nel CV della piega a K, i set di allenamento sarebbero abbastanza diversi tra le pieghe e i modelli risultanti hanno maggiori probabilità di essere diversi (quindi varianza più elevata).

Infatti.

Se l'argomentazione di cui sopra è corretta, perché i modelli appresi con un CV lasciato in sospeso avrebbero una varianza più elevata?

L'argomento sopra è giusto. Ora la domanda è sbagliata. La varianza del modello è un argomento completamente diverso. C'è una varianza dove c'è una variabile casuale. Nell'apprendimento automatico hai a che fare con molte variabili casuali, in particolare e non limitate a: ogni osservazione è una variabile casuale; il campione è una variabile casuale; il modello, essendo formato da una variabile casuale, è una variabile casuale; lo stimatore dell'errore che il tuo modello produrrà di fronte alla popolazione è una variabile casuale; e, ultimo ma non meno importante, l'errore del modello è una variabile casuale, poiché è probabile che ci sia rumore nella popolazione (questo si chiama errore irriducibile). Ci può essere anche più casualità se c'è stocastica coinvolta nel processo di apprendimento del modello. È di fondamentale importanza distinguere tra tutte queste variabili.


errerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<nerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

L'ultimo, sebbene abbia più distorsioni, dovrebbe essere preferito, in quanto ha una varianza molto minore e una propensione accettabile , ovvero un compromesso ( compromesso di distorsione di pregiudizio ). Si prega di notare che non si desidera una varianza molto bassa se ciò comporta un pregiudizio elevato!


Nota aggiuntiva : in questa risposta cerco di chiarire (cosa penso siano) le idee sbagliate che circondano questo argomento e, in particolare, cerca di rispondere punto per punto e precisamente i dubbi che ha il richiedente. In particolare, cerco di chiarire di quale varianza stiamo parlando , che è essenzialmente ciò che viene chiesto qui. Vale a dire spiego la risposta che è collegata dal PO.

Detto questo, mentre fornisco il ragionamento teorico alla base dell'affermazione, non abbiamo ancora trovato prove empiriche conclusive a supporto. Quindi, per favore, stai molto attento.

Idealmente, dovresti leggere prima questo post e quindi fare riferimento alla risposta di Xavier Bourret Sicotte, che fornisce una discussione approfondita sugli aspetti empirici.

kkfoldk10 × 10fold


2
KK

3
kN

KK=10K=N

1
Non ho ancora guardato quei documenti, li guarderò quando avrò tempo. Tuttavia, i modelli lineari OLS sono modelli molto semplici, anzi soggetti a bassa varianza. Non solo, hanno formule chiuse per la convalida incrociata.
D1X,

1
+1 le tue modifiche rendono la risposta molto più chiara - siamo allineati sull'impatto della correlazione tra set di allenamento -> varianza più elevata. In pratica però (a livello sperimentale) sembra che i set di allenamento non siano sempre così correlati tra loro.
Xavier Bourret Sicotte

12

I problemi sono davvero sottili. Ma non è assolutamente vero che LOOCV abbia una varianza maggiore in generale. Un recente documento discute alcuni aspetti chiave e affronta diversi malintesi apparentemente diffusi sulla convalida incrociata.

Yongli Zhang e Yuhong Yang (2015). Convalida incrociata per la selezione di una procedura di selezione del modello. Journal of Econometrics, vol. 187, 95-112.

I seguenti malintesi sono spesso visti in letteratura, fino ad ora:

"Il CV Leave-one-out (LOO) ha una propensione minore ma una varianza più grande rispetto al CV Leave-more-out"

Questo punto di vista è abbastanza popolare. Ad esempio, Kohavi (1995, Sezione 1) afferma: "Ad esempio, il congedo è quasi imparziale, ma ha un'elevata varianza, portando a stime inaffidabili". L'affermazione, tuttavia, non è generalmente vera.

Più in dettaglio:

In letteratura, anche includendo pubblicazioni recenti, ci sono raccomandazioni troppo prese. Il suggerimento generale di Kohavi (1995) di utilizzare un CV di 10 volte è stato ampiamente accettato. Ad esempio, Krstajic et al (2014, pagina 11) affermano: "Kohavi [6] e Hastie et al [4] mostrano empiricamente che la convalida incrociata V-fold rispetto alla convalida incrociata one-out ha una varianza inferiore". Di conseguenza prendono la raccomandazione di 10 volte CV (con ripetizione) per tutte le loro indagini numeriche. A nostro avviso, una tale pratica può essere fuorviante. In primo luogo, non dovrebbe esserci alcuna raccomandazione generale che non tenga conto dell'obiettivo dell'uso del CV. In particolare, l'esame della distorsione e della varianza della stima dell'accuratezza del CV di un modello / procedura di modellazione candidato può essere una questione molto diversa dalla selezione ottimale del modello (con uno dei due obiettivi di selezione del modello indicati in precedenza). In secondo luogo, anche limitato al contesto della stima dell'accuratezza, l'affermazione non è generalmente corretta. Per i modelli / procedure di modellazione con bassa instabilità, LOO presenta spesso la più piccola variabilità. Abbiamo anche dimostrato che per le procedure altamente instabili (ad es. LASSO con pn molto più grande di n), i CV 10 o 5 volte, riducendo la variabilità, possono avere MSE significativamente più grandi di LOO a causa di un aumento della distorsione ancora peggiore. Per i modelli / procedure di modellazione con bassa instabilità, LOO presenta spesso la più piccola variabilità. Abbiamo anche dimostrato che per le procedure altamente instabili (ad es. LASSO con pn molto più grande di n), i CV 10 o 5 volte, riducendo la variabilità, possono avere MSE significativamente più grandi di LOO a causa di un aumento della distorsione ancora peggiore. Per i modelli / procedure di modellazione con bassa instabilità, LOO presenta spesso la più piccola variabilità. Abbiamo anche dimostrato che per le procedure altamente instabili (ad es. LASSO con pn molto più grande di n), i CV 10 o 5 volte, riducendo la variabilità, possono avere MSE significativamente più grandi di LOO a causa di un aumento della distorsione ancora peggiore.

Complessivamente, dalle figure 3-4, LOO e ripetuti CV da 50 e 20 volte sono i migliori qui, 10 volte è significativamente peggiore e k ≤ 5 è chiaramente scarso. Per la stima predittiva delle prestazioni, tendiamo a credere che LOO sia in genere il migliore o tra i migliori per un modello fisso o una procedura di modellazione molto stabile (come BIC nel nostro contesto) sia in bias che in varianza, o abbastanza vicino al migliore in MSE per una procedura più instabile (come AIC o persino LASSO con p ≫ n). Mentre il CV di 10 volte (con ripetizioni) può certamente essere il migliore a volte, ma più frequentemente, è in una posizione scomoda: è più rischioso di LOO (a causa del problema di distorsione) per la stima dell'errore di previsione ed è generalmente peggio dell'eliminazione -n / 2 CV per l'identificazione del miglior candidato.


4
È possibile ampliare un po 'questa risposta, forse per riassumere alcuni degli aspetti chiave sollevati nel documento?
Silverfish

3
Carta molto interessante. Nel rivedere Kohavi (1995) ho sentito che molte affermazioni erano incredibilmente ampie e in gran parte prive di fondamento. È un articolo di saggezza popolare il cui interrogatorio critico è atteso da tempo.
Paul,

3

Prima di discutere di parzialità e varianza, la prima domanda è:

Cosa viene stimato per convalida incrociata?

Kn(K1)/KKK

K

K

K


4
K

0

Penso che ci sia una risposta più semplice. Se si aumenta k, i set di test diventano sempre più piccoli. Poiché le pieghe vengono campionate casualmente, può accadere con piccoli set di test, ma non altrettanto probabilmente con quelli più grandi, che non sono rappresentativi di uno shuffle casuale. Un set di test potrebbe contenere tutti i record difficili da prevedere e un altro tutti quelli facili. Pertanto, la varianza è elevata quando si prevedono set di test molto piccoli per piega.


Xi

4
sembra che tu stia parlando della variabilità nelle previsioni dei modelli nei set di controllo durante la convalida incrociata. Non penso che questo sia di grande interesse. Ciò che interessa è se il tuo modello finale sintonizzato varierà molto nelle previsioni che fa se dovesse essere addestrato su dati diversi (cioè, la stima della verità del tuo modello è davvero variabile a seconda del set di addestramento)
captain_ahab

E come stimeresti la variazione attesa su dati ancora invisibili se non attraverso la variazione osservata tra insiemi di dati previsti consecutivamente che all'epoca erano sconosciuti? Capisco però che la variabilità che deriva dalla sola configurazione sperimentale non è interessante. La mia risposta: pertanto è necessario selezionare una configurazione sperimentale che non introduce nuovi tipi di variabilità. Se lo si fa, i due tipi di variabilità non possono essere separati e diventa più difficile stimare l'estensione del tipo che è di interesse.
David Ernst,

1
puoi mostrarlo con simulazioni (cercherò un documento). Non sono sicuro se stiamo parlando a vicenda - ma quando la fretta e le persone parlano dell'alta correlazione tra i set di formazione in LOOCV, sottolineano che in pratica continui ad allenare il tuo modello sullo stesso set di dati di allenamento. Ciò porta al sovradimensionamento del set di dati di addestramento. cambiare il set di dati di training, le previsioni dei modelli per l'esempio di test X cambieranno molto. al contrario, se i tuoi set di allenamento erano meno correlati, puoi usare un set di allenamento completamente nuovo e otterrai una previsione simile per l'esempio di test X.
captain_ahab

Penso che ci siano due problemi separati coinvolti. L'aumento di k porta a una maggiore sovrapposizione tra i set di allenamento che ha le conseguenze che menzioni. (Non sto discutendo di nulla di tutto ciò) Allo stesso tempo, l'aumento di k porta a serie di test più piccole per piega, il che significa che è più probabile che i record vengano mescolati in modi indesiderati in quelle serie. Penso che per la domanda specifica posta, questa sia la ragione principale. Potrebbero esserci anche contributi dalla sovrapposizione dei set di addestramento. (C'è un terzo problema quando si usano le ripetizioni perché anche i set di test si sovrappongono.)
David Ernst,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.