Solo per aggiungere leggermente alla risposta di @SubravetiSuraj (+1)
La convalida incrociata fornisce una stima pessimistica delle prestazioni perché la maggior parte dei modelli statistici migliorerà se l'allenamento viene ampliato. Ciò significa che la convalida incrociata di k-fold stima le prestazioni di un modello addestrato su un set di dati 100 * (k-1) / k% dei dati disponibili, anziché sul 100% di esso. Pertanto, se si esegue la convalida incrociata per stimare le prestazioni e quindi si utilizza un modello addestrato su tutti i dati per l'uso operativo, si comporterà leggermente meglio di quanto suggerito dalla stima di convalida incrociata.
La convalida incrociata senza esclusione di dati è approssimativamente imparziale , poiché la differenza di dimensioni tra il set di allenamento utilizzato in ciascuna piega e l'intero set di dati è solo un singolo modello. C'è un articolo su questo di Luntz e Brailovsky (in russo).
Luntz, Aleksandr e Viktor Brailovsky. "Sulla stima dei caratteri ottenuti nella procedura statistica di riconoscimento." Technicheskaya Kibernetica 3.6 (1969): 6-12.
Guarda anche
Stima dei tassi di errore nell'analisi discriminante Peter A. Lachenbruch e M. Ray Mickey Technometrics Vol. 10, Iss. 1,1968
Tuttavia, mentre la convalida incrociata lasciata in sospeso è approssimativamente imparziale, tende ad avere una varianza elevata (quindi otterresti stime molto diverse se ripetessi la stima con diversi campioni iniziali di dati dalla stessa distribuzione). Poiché l'errore dello stimatore è una combinazione di distorsione e varianza, se la convalida incrociata con esclusione è migliore della convalida incrociata 10 volte dipende da entrambe le quantità.
Ora la varianza nell'adattare il modello tende ad essere maggiore se è adattato a un piccolo set di dati (poiché è più sensibile a eventuali artefatti di rumore / campionamento nel particolare campione di addestramento utilizzato). Ciò significa che è probabile che la convalida incrociata 10 volte abbia una varianza elevata (nonché una distorsione più elevata) se si dispone solo di una quantità limitata di dati, poiché le dimensioni del set di addestramento saranno inferiori rispetto a LOOCV. Quindi la validazione incrociata di k-fold può avere anche problemi di varianza, ma per una ragione diversa. Questo è il motivo per cui LOOCV è spesso migliore quando le dimensioni del set di dati sono ridotte.
Comunque, la ragione principale per usare LOOCV secondo me è che è computazionalmente poco costoso per alcuni modelli (come la regressione lineare, la maggior parte dei metodi del kernel, i classificatori più vicini, ecc.), E se il set di dati non fosse molto piccolo, userei Convalida incrociata di 10 volte se rientrava nel mio budget computazionale o, meglio ancora, nella stima del bootstrap e nel bagging.