L'argomento che il documento sembra stia facendo mi sembra strano.
Secondo il giornale, l'obiettivo del CV è quello di stimare , la performance predittiva atteso del modello su nuovi dati, dato che il modello è stato addestrato sul set di dati osservati S . Quando effettuiamo k CV -fold, si ottiene una stima Un di questo numero. A causa della suddivisione casuale di S in k pieghe, questa è una variabile casuale A ~ f ( A ) con media μ k e varianza σ 2 k . Al contrario, nα2SkA^SkA^∼f(A)μkσ2kn -volte ripetuto CV produce una stima con la stessa media ma varianza minore σ 2 k / n .μkσ2k/n
Ovviamente, . Questo pregiudizio è qualcosa che dobbiamo accettare.α2≠μk
Tuttavia, l'errore previsto sarà maggiore per piccole n , e sarà il più grande per n = 1 , almeno con la stima ragionevole f ( A ) , ad esempio quando un ˙ ~ N ( μ k , σ 2 k / n ) . In altre parole, il CV ripetuto consente di ottenere una stima più precisa di μE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μked è una buona cosa perché fornisce una stima più precisa di α2 .
Pertanto, il CV ripetuto è strettamente più preciso del CV non ripetuto.
Gli autori non ne discutono! Invece sostengono, in base alle simulazioni, che
ridurre la varianza [ripetendo CV] è, in molti casi, non molto utile ed essenzialmente uno spreco di risorse computazionali.
Questo significa solo che nelle loro simulazioni era piuttosto basso; e in effetti, la dimensione del campione più bassa che usavano era 200 , che è probabilmente abbastanza grande da produrre piccoli σ 2 kσ2k200σ2k . (La differenza nelle stime ottenute con CV non ripetuto e CV ripetuto 30 volte è sempre piccola.) Con campioni di dimensioni più piccole ci si può aspettare una maggiore varianza tra le ripetizioni.
CAVEAT: intervalli di confidenza!
Un altro punto che gli autori stanno facendo è quello
la segnalazione di intervalli di confidenza [in ripetute convalide incrociate] è fuorviante.
μkα2
k pieghe. Direi che anche questi EC sono praticamente insignificanti!
adultμk
PIÙ CAVEAT GENERALE: varianza del CV.
Hai scritto quel CV ripetuto
è diventata una tecnica popolare per ridurre la varianza della convalida incrociata.
μkk=Nk
α1S