Jackknife vs. LOOCV


15

C'è davvero qualche differenza tra il coltellino e lasciare fuori una validazione incrociata? La procedura sembra identica, mi sto perdendo qualcosa?

Risposte:


11

Nella convalida incrociata si calcola una statistica sui campioni di sinistra. Molto spesso, si prevedono i campioni esclusi da un modello basato sui campioni conservati. Nel jackknifing, si calcola una statistica solo dai campioni conservati.


4
Non capisco come questa risposta parli al LOOCV nella domanda originale. In che senso si può "calcolare una statistica" su una singola osservazione lasciata fuori?
Alexis,

12

Jackknife si riferisce spesso a 2 processi correlati ma diversi, entrambi basati su un approccio univoco - che porta a questa confusione.

In un contesto, jackknife può essere utilizzato per stimare i parametri della popolazione e i loro errori standard. Ad esempio, per utilizzare un approccio a coltello per stimare la pendenza e l'intercettazione di un modello di regressione semplice, si dovrebbe:

  1. Stimare la pendenza e intercettare usando tutti i dati disponibili.
  2. Lasciare 1 osservazione e stimare la pendenza e l'intercetta (nota anche come "stima parziale" dei coefficienti).
  3. Calcola la differenza tra la "stima parziale" e la stima "tutti i dati" della pendenza e dell'intercetta (noto anche come "pseudo valore" dei coefficienti).
  4. Ripetere i passaggi 2 e 3 per l'intero set di dati.
  5. Calcola la media degli pseudo valori per ciascun coefficiente: queste sono le stime del coltellino della pendenza e dell'intercetta

Gli pseudo valori e le stime del coefficiente di presa dei coefficienti possono anche essere usati per determinare gli errori standard e quindi gli intervalli di confidenza. Tipicamente questo approccio offre intervalli di confidenza più ampi per i coefficienti perché è una misura migliore, più conservativa, dell'incertezza. Inoltre, questo approccio può essere utilizzato per ottenere una stima del coltello a serramanico anche per i coefficienti.

Nell'altro contesto, jackknife viene utilizzato per valutare le prestazioni del modello. In questo caso jackknife = validazione incrociata "lascia una sola". Entrambi si riferiscono a lasciare un'osservazione fuori dal set di dati di calibrazione, ricalibrare il modello e prevedere l'osservazione che è stata lasciata fuori. In sostanza, ogni osservazione viene prevista usando le sue "stime parziali" dei predittori.

Ecco un bel piccolo articolo su jackknife che ho trovato online: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf


1
A meno che non mi sbagli (e potrei anche esserlo), il tuo primo contesto descrive la convalida incrociata univoca .
Alexis,

2
Stavo solo separando le idee sulla stima dei parametri usando LOO rispetto alla stima del valore che era stato lasciato fuori (come in LOOCV). Li vedo come due processi correlati ma leggermente diversi, ma forse entrambi possono essere indicati come LOOCV? Potrei anche sbagliarmi.
jcmb,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.