La convalida incrociata ripetuta dovrebbe essere utilizzata per valutare i modelli predittivi?


16

Mi sono imbattuto in questo articolo del 2012 di Gitte Vanwinckelen e Hendrik Blockeel mettendo in discussione l'utilità della ripetuta convalida incrociata, che è diventata una tecnica popolare per ridurre la varianza della convalida incrociata.

Gli autori hanno dimostrato che mentre la ripetuta convalida incrociata riduce la varianza delle previsioni del modello, poiché lo stesso set di dati campione viene ricampionato, la media delle stime ricondizionate di convalida converge in una stima distorta della vera precisione predittiva e quindi non è utile.

Dovrebbero essere utilizzate ripetute convalide incrociate nonostante queste limitazioni?


6
Nella mia esperienza, la convalida incrociata (ripetuta o meno) non fornisce un'ottima stima dell'accuratezza predittiva. Ma è molto utile per confrontare le prestazioni predittive di diversi modelli. È un buon modo di scegliere tra i modelli ma non un buon modo per stimare le prestazioni di un singolo modello.
Flounderer,

@Flounderer Questo è un buon punto. La mia interpretazione dell'articolo è che non possiamo fare confronti significativi di modelli basati su convalida incrociata ripetuta rispetto a convalida incrociata non ripetuta. Stai cercando di spremere una quantità irragionevole di informazioni dai dati. O è sbagliato?
RobertF,

Risposte:


11

L'argomento che il documento sembra stia facendo mi sembra strano.

Secondo il giornale, l'obiettivo del CV è quello di stimare , la performance predittiva atteso del modello su nuovi dati, dato che il modello è stato addestrato sul set di dati osservati S . Quando effettuiamo k CV -fold, si ottiene una stima Un di questo numero. A causa della suddivisione casuale di S in k pieghe, questa è una variabile casuale A ~ f ( A ) con media μ k e varianza σ 2 k . Al contrario, nα2SkA^SkA^f(A)μkσk2n -volte ripetuto CV produce una stima con la stessa media ma varianza minore σ 2 k / n .μkσk2/n

Ovviamente, . Questo pregiudizio è qualcosa che dobbiamo accettare.α2μk

Tuttavia, l'errore previsto sarà maggiore per piccole n , e sarà il più grande per n = 1 , almeno con la stima ragionevole f ( A ) , ad esempio quando un ˙ ~ N ( μ k , σ 2 k / n ) . In altre parole, il CV ripetuto consente di ottenere una stima più precisa di μE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μked è una buona cosa perché fornisce una stima più precisa di α2 .

Pertanto, il CV ripetuto è strettamente più preciso del CV non ripetuto.

Gli autori non ne discutono! Invece sostengono, in base alle simulazioni, che

ridurre la varianza [ripetendo CV] è, in molti casi, non molto utile ed essenzialmente uno spreco di risorse computazionali.

Questo significa solo che nelle loro simulazioni era piuttosto basso; e in effetti, la dimensione del campione più bassa che usavano era 200 , che è probabilmente abbastanza grande da produrre piccoli σ 2 kσk2200σk2 . (La differenza nelle stime ottenute con CV non ripetuto e CV ripetuto 30 volte è sempre piccola.) Con campioni di dimensioni più piccole ci si può aspettare una maggiore varianza tra le ripetizioni.

CAVEAT: intervalli di confidenza!

Un altro punto che gli autori stanno facendo è quello

la segnalazione di intervalli di confidenza [in ripetute convalide incrociate] è fuorviante.

μkα2

k pieghe. Direi che anche questi EC sono praticamente insignificanti!

adultμk

PIÙ CAVEAT GENERALE: varianza del CV.

Hai scritto quel CV ripetuto

è diventata una tecnica popolare per ridurre la varianza della convalida incrociata.

μkk=Nk

α1S


1
Spero che @cbeleites noterà questo thread e commenterà qui o lascerà la sua risposta: so che sta (o stava) usando molto CV ripetuto e penso che sia sostenuta per la variabilità del calcolo rispetto alle ripetizioni come misura della stabilità del modello. Ma non penso che calcolerebbe un elemento della configurazione rispetto alle ripetizioni.
ameba dice di reintegrare Monica

1
μkα2μkα2μk

1
@RobertF: Stavo parlando (seguendo il documento di V&B) sulla stima delle prestazioni del modello. La mia tesi è che il CV ripetuto è più preciso del CV non ripetuto e penso che sia indubbio (V&R sostiene che la differenza nella precisione tende a non essere così importante nella pratica). Confrontare due modelli è molto più complicato, perché diciamo che esegui CV e ottieni il 70% per un modello e il 71% per un altro modello. È una differenza "significativa"? Bene, questo è un problema difficile senza una risposta definitiva. Ed è indipendente dal problema ripetuto / non ripetuto.
ameba dice di reintegrare Monica


1
Bel lavoro. Premio assegnato. Immagino che riassumerei la morale della storia come: ripetute convalide incrociate possono essere utili solo quandoσKè piccolo, il che è più probabile per campioni relativamente piccoli. Il problema di come la convalida incrociata stima l'errore di test utilizzando il set di dati di training fornito , rispetto all'errore di test previsto utilizzando un set di dati di training casuale della stessa dimensione, è discusso nella sezione 7.12 di Hastie, Tibshirani e Friedman (2009). Hastie et al. Concludo che è meglio a quest'ultimo.
Kodiologo
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.