Se prendi jackknifing non solo per includere il congedo, ma qualsiasi tipo di ricampionamento-senza-sostituzione come le procedure -fold, lo considero un'opzione praticabile e lo uso regolarmente, ad esempio in
Beleites et al. : Classificazione spettroscopica Raman dei tessuti di astrocitoma: utilizzando informazioni di riferimento morbido. Anal Bioanal Chem, 2011, 400, 2801-2816k
vedi anche: Intervallo di confidenza per l'accuratezza della classificazione convalidata in modo incrociato
Evito LOO per diversi motivi e invece uso uno schema ripetuto ripetuto / ripetuto . Nel mio campo (chimica / spettroscopia / chemiometria), la convalida incrociata è molto più comune della convalida fuori dal bootstrap. Per le nostre applicazioni di dati / typcial abbiamo scoperto che a volte ripetuto la convalida incrociata -fold e le iterazioni delle stime delle prestazioni out-of-bootstrap hanno un errore totale molto simile [Beleites et al. : Riduzione della varianza nella stima dell'errore di classificazione mediante set di dati sparsi. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .kiki⋅k
Il vantaggio particolare che vedo osservando schemi di convalida incrociata iterati rispetto al bootstrap è che posso facilmente ricavare misure di incertezza di stabilità / modello che possono essere spiegate in modo intuitivo e ha separato due diverse cause di incertezza di varianza nella misurazione delle prestazioni che sono più intrecciate in misure fuori dal bagagliaio.
Una linea di ragionamento che mi porta a incrociare validazione / jackknifing sta guardando la solidità del modello: la validazione incrociata corrisponde piuttosto direttamente alle domande del tipo "Cosa succede al mio modello se cambio casi con nuovi casi?" xxo "Quanto è solido il mio modello contro la perturbazione dei dati di allenamento tramite lo scambio di casi ?"x Questo è applicabile anche al bootstrap, ma meno direttamente.
Si noti che io non cerco di intervalli di confidenza traggano, perché la mia tecnica è intrinsecamente cluster ( spettri di pazienti), quindi preferisco rapportonsnp≪ns
un intervallo di confidenza binomiale (conservativo) che utilizza la prestazione media osservata e come dimensione del campione enp
la varianza osservo tra le iterazioni della convalida incrociata. Dopo pieghe, ogni caso viene testato esattamente una volta, sebbene da diversi modelli surrogati. Pertanto, qualsiasi tipo di variazione osservata tra le corse deve essere causata dall'instabilità del modello.iki
Tipicamente, cioè se il modello è ben impostato, 2. è necessario solo per dimostrare che è molto più piccolo della varianza in 1. e che il modello è quindi ragionevolmente stabile. Se 2. risulta non trascurabile, è tempo di considerare i modelli aggregati: l'aggregazione dei modelli aiuta solo per la varianza causata dall'instabilità del modello, non può ridurre l'incertezza di varianza nella misurazione delle prestazioni dovuta al numero finito di casi di test .
Nota che per intervalli di confidenza prestazioni costrutto di tali dati, mi piacerebbe almeno prendere in considerazione che la varianza osservata tra le percorsi della convalida croce è della media dei modelli di che l'instabilità, cioè direi varianza modello di instabilità è varianza osservata tra piste validazione incrociata; più la varianza dovuta al numero di casi finiti - per le misurazioni delle prestazioni di classificazione (hit / errore) questo è binomiale. Per misure continue, proverei a derivare la varianza all'interno della varianza della corsa di convalida incrociata, , e la stima della varianza del tipo di instabilità per i modelli derivati dalikk⋅kk
Il vantaggio della crossvalidation qui è che si ottiene una chiara separazione tra l'incertezza causata dall'instabilità del modello e l'incertezza causata dal numero finito di casi di test. Lo svantaggio corrispondente è ovviamente che se si dimentica di prendere in considerazione il numero finito di casi reali, si sottovaluterà gravemente la vera incertezza. Tuttavia, ciò accadrebbe anche per il bootstrap (anche se in misura minore).
Finora, il ragionamento si concentra sulla misurazione delle prestazioni per il modello derivato per un determinato set di dati. Se si considera un set di dati per la data applicazione e delle dimensioni del campione fornite, esiste un terzo contributo alla varianza che fondamentalmente non può essere misurato mediante il ricampionamento della convalida, vedere ad esempio Bengio e Grandvalet: nessuno stimatore non distorto della varianza di K-Fold Cross -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). , abbiamo anche cifre che mostrano questi tre contributi in Beleites et al. : Pianificazione della dimensione del campione per i modelli di classificazione., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Penso che ciò che accade qui sia il risultato dell'ipotesi che il ricampionamento sia simile al disegno di un nuovo campione completo.
Ciò è importante se si devono confrontare algoritmi / strategie / euristiche di costruzione di modelli piuttosto che costruire un modello particolare per l'applicazione e convalidare questo modello.