La convalida incrociata K-fold (CV) suddivide casualmente i tuoi dati in partizioni K e, a sua volta, tieni fuori una di quelle parti K come caso di test e raggruppa insieme le altre parti K-1 come dati di allenamento. Leave One Out (LOO) è il caso speciale in cui prendi i tuoi N elementi di dati e fai CV N-fold. In un certo senso, Hold Out è un altro caso speciale, in cui scegli solo una delle tue K pieghe come test e non ruoti attraverso tutte le K pieghe.
Per quanto ne so, il CV di 10 volte è praticamente il rigore, dal momento che utilizza i tuoi dati in modo efficiente e aiuta anche a evitare sfortunate scelte di partizione. Hold Out non utilizza in modo efficiente i tuoi dati e LOO non è così robusto (o qualcosa del genere), ma 10-ish-fold è giusto.
Se sai che i tuoi dati contengono più di una categoria e una o più categorie sono molto più piccole delle altre, alcune delle tue partizioni K casuali potrebbero non contenere affatto nessuna delle piccole categorie, il che sarebbe male. Per assicurarti che ogni partizione sia ragionevolmente rappresentativa, usa la stratificazione: suddividi i tuoi dati nelle categorie e quindi crea partizioni casuali scegliendo in modo casuale e proporzionale da ciascuna categoria.
Tutte queste variazioni sul CV K-fold scelgono dai tuoi dati senza sostituzione. Bootstrap sceglie i dati con la sostituzione, quindi lo stesso dato può essere incluso più volte e alcuni dati potrebbero non essere inclusi affatto. (Ogni "partizione" avrà anche N elementi, a differenza di K-fold, in cui ogni partizione avrà elementi N / K.)
(Devo ammettere che non so esattamente come sarebbe usato il bootstrap nel CV. Il principio del testing e del CV è assicurarsi di non testare i dati su cui ti sei allenato, quindi ottieni un'idea più realistica di come la tua tecnica + coefficienti potrebbero funzionare nel mondo reale.)
EDIT: Sostituito "Hold Out non è efficiente" con "Hold Out non utilizza in modo efficiente i dati" per chiarire, secondo i commenti.