Ci sono usi contemporanei di jackknifing?

La domanda: il bootstrap è superiore al jackknifing; tuttavia, mi chiedo se ci sono casi in cui jackknifing è l'unica o almeno un'opzione praticabile per caratterizzare l'incertezza dalle stime dei parametri. Inoltre, in situazioni pratiche quanto è distorto / impreciso il jackknifing rispetto al bootstrap e i risultati del jackknife possono fornire informazioni preliminari prima che venga sviluppato un bootstrap più complicato?

Qualche contesto: un amico sta usando un algoritmo di apprendimento automatico black-box ( MaxEnt ) per classificare i dati geografici che sono "solo presenza" o "solo positivi". La valutazione generale del modello viene di solito eseguita mediante convalida incrociata e curve ROC. Tuttavia, sta usando l'output del modello per ricavare una singola descrizione numerica dell'output del modello e vorrebbe un intervallo di confidenza attorno a quel numero; Jackknifing sembra essere un modo ragionevole per caratterizzare l'incertezza su questo valore. Il bootstrap non appare rilevante perché ogni punto dati è una posizione univoca su una mappa che non può essere ricampionata con la sostituzione. Lo stesso programma di modellistica potrebbe essere in grado di fornire in definitiva ciò di cui ha bisogno; tuttavia, sono interessato in generale se / quando il jackknifing può essere utile.

— N Brouwer
fonte

Tali applicazioni di mappatura - facendo stime da posizioni campionate discrete - sono precisamente quelle in cui ho notato un ampio uso di jackknifing, per il motivo che mi dai. È una procedura standard intrapresa preliminarmente all'esecuzione del kriging, per esempio.

— whuber

In alcune impostazioni di esempio basse, poiché il bootstrap del campione con la sostituzione, l'intera matrice di dati può diventare singolare, quindi molti modelli sono impossibili da adattare.

— rep_ho,

Se prendi jackknifing non solo per includere il congedo, ma qualsiasi tipo di ricampionamento-senza-sostituzione come le procedure -fold, lo considero un'opzione praticabile e lo uso regolarmente, ad esempio in Beleites et al. : Classificazione spettroscopica Raman dei tessuti di astrocitoma: utilizzando informazioni di riferimento morbido. Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

vedi anche: Intervallo di confidenza per l'accuratezza della classificazione convalidata in modo incrociato

Evito LOO per diversi motivi e invece uso uno schema ripetuto ripetuto / ripetuto . Nel mio campo (chimica / spettroscopia / chemiometria), la convalida incrociata è molto più comune della convalida fuori dal bootstrap. Per le nostre applicazioni di dati / typcial abbiamo scoperto che a volte ripetuto la convalida incrociata -fold e le iterazioni delle stime delle prestazioni out-of-bootstrap hanno un errore totale molto simile [Beleites et al. : Riduzione della varianza nella stima dell'errore di classificazione mediante set di dati sparsi. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] . $k$ $i$ $k$ $i \cdot k$

Il vantaggio particolare che vedo osservando schemi di convalida incrociata iterati rispetto al bootstrap è che posso facilmente ricavare misure di incertezza di stabilità / modello che possono essere spiegate in modo intuitivo e ha separato due diverse cause di incertezza di varianza nella misurazione delle prestazioni che sono più intrecciate in misure fuori dal bagagliaio.
Una linea di ragionamento che mi porta a incrociare validazione / jackknifing sta guardando la solidità del modello: la validazione incrociata corrisponde piuttosto direttamente alle domande del tipo "Cosa succede al mio modello se cambio casi con nuovi casi?" $x$ $x$ o "Quanto è solido il mio modello contro la perturbazione dei dati di allenamento tramite lo scambio di casi ?" $x$ Questo è applicabile anche al bootstrap, ma meno direttamente.

Si noti che io non cerco di intervalli di confidenza traggano, perché la mia tecnica è intrinsecamente cluster ( spettri di pazienti), quindi preferisco rapporto $n_s$ $n_p \ll n_s$

un intervallo di confidenza binomiale (conservativo) che utilizza la prestazione media osservata e come dimensione del campione e $n_p$
la varianza osservo tra le iterazioni della convalida incrociata. Dopo pieghe, ogni caso viene testato esattamente una volta, sebbene da diversi modelli surrogati. Pertanto, qualsiasi tipo di variazione osservata tra le corse deve essere causata dall'instabilità del modello. $i$ $k$ $i$

Tipicamente, cioè se il modello è ben impostato, 2. è necessario solo per dimostrare che è molto più piccolo della varianza in 1. e che il modello è quindi ragionevolmente stabile. Se 2. risulta non trascurabile, è tempo di considerare i modelli aggregati: l'aggregazione dei modelli aiuta solo per la varianza causata dall'instabilità del modello, non può ridurre l'incertezza di varianza nella misurazione delle prestazioni dovuta al numero finito di casi di test .

Nota che per intervalli di confidenza prestazioni costrutto di tali dati, mi piacerebbe almeno prendere in considerazione che la varianza osservata tra le percorsi della convalida croce è della media dei modelli di che l'instabilità, cioè direi varianza modello di instabilità è varianza osservata tra piste validazione incrociata; più la varianza dovuta al numero di casi finiti - per le misurazioni delle prestazioni di classificazione (hit / errore) questo è binomiale. Per misure continue, proverei a derivare la varianza all'interno della varianza della corsa di convalida incrociata, , e la stima della varianza del tipo di instabilità per i modelli derivati dal $i$ $k$ $k \cdot$ $k$ $k$

Il vantaggio della crossvalidation qui è che si ottiene una chiara separazione tra l'incertezza causata dall'instabilità del modello e l'incertezza causata dal numero finito di casi di test. Lo svantaggio corrispondente è ovviamente che se si dimentica di prendere in considerazione il numero finito di casi reali, si sottovaluterà gravemente la vera incertezza. Tuttavia, ciò accadrebbe anche per il bootstrap (anche se in misura minore).

Finora, il ragionamento si concentra sulla misurazione delle prestazioni per il modello derivato per un determinato set di dati. Se si considera un set di dati per la data applicazione e delle dimensioni del campione fornite, esiste un terzo contributo alla varianza che fondamentalmente non può essere misurato mediante il ricampionamento della convalida, vedere ad esempio Bengio e Grandvalet: nessuno stimatore non distorto della varianza di K-Fold Cross -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). , abbiamo anche cifre che mostrano questi tre contributi in Beleites et al. : Pianificazione della dimensione del campione per i modelli di classificazione., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Penso che ciò che accade qui sia il risultato dell'ipotesi che il ricampionamento sia simile al disegno di un nuovo campione completo.

Ciò è importante se si devono confrontare algoritmi / strategie / euristiche di costruzione di modelli piuttosto che costruire un modello particolare per l'applicazione e convalidare questo modello.

— cbeleites insoddisfatto di SX
fonte