Prova della formula LOOCV


18

Da un'introduzione all'apprendimento statistico di James et al., La stima di convalida incrociata (LOOCV) lascia una traccia è definita da dove .MSEi=(yi - y i)2

CV(n)=1nΣio=1nMSEio
MSEio=(yio-y^io)2

Senza prove, l'equazione (5.2) afferma che per i minimi quadrati o la regressione polinomiale (se questo si applica alla regressione su una sola variabile non mi è noto), dove " è il valore adattato dai minimi quadrati originali si adatta ( non idea di cosa significhi, a proposito , significa utilizzare tutti i punti nel set di dati?) e è la leva "che è definita dayii

CV(n)=1nΣio=1n(yio-y^io1-hio)2
y^ioioh i = 1hio
hio=1n+(Xio-X¯)2Σj=1n(Xj-X¯)2.

Come si dimostra questo?

Il mio tentativo: si potrebbe iniziare notando che ma a parte da questo (e se ricordo, quella formula per è vera solo per una semplice regressione lineare ...), non sono sicuro di come procedere da qui.

y^io=β0+Σio=1KβKXK+alcuni termini polinomiali di laurea 2
hio

O le tue equazioni sembrano usare per più di una cosa o sono molto confuso. In ogni caso, una maggiore chiarezza sarebbe buona. io
Glen_b -Restate Monica

@Glen_b Ho appena saputo di LOOCV ieri, quindi potrei non capire alcune cose correttamente. Da quello che ho capito, hai una serie di punti dati, diciamo . Con LOOCV, hai per ogni fisso (intero positivo) un set di validazione e un set di test usato per generare un modello adattato per ogni . Ad esempio, ad esempio, adattiamo il nostro modello utilizzando una semplice regressione lineare con tre punti dati, . Avremmo (continua)k V k =X={(Xio,yio):ioZ+}KT k = XV k k X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) }VK={(XK,yK)}TK=XVKKX={(0,1),(1,2),(2,3)}
Clarinetist

@Glen_b e . Usando i punti in , possiamo trovare che usando una semplice regressione lineare, otteniamo il modello . Quindi calcoliamo usando come set di validazione e otteniamo (usando solo il punto indicato) e , dando . Ok, forse usare l'apice non è stata la migliore idea - lo cambierò nel post originale. T 1 ={(1,2),(2,3)} T 1 y i =X+1MSE V 1 y 1 =1 y ( 1 ) 1 =0+V1={(0,1)}T1={(1,2),(2,3)}T1y^i=X+1MSEV1y1=1MSE 1 = 0y^1(1)=0+1=1MSE1=0
Clarinetist

ecco alcuni appunti sulle pagine di
Xavier Bourret Sicotte

Risposte:


17

il risultato per qualsiasi regressione lineare multipla, indipendentemente dal fatto che i regressori siano polinomi di o meno. In effetti, mostra un po 'più di quello che hai chiesto, perché mostra che ogni residuo LOOCV è identico al residuo ponderato per leva corrispondente dalla regressione completa, non solo che puoi ottenere l'errore LOOCV come in (5.2) (lì potrebbero essere altri modi in cui le medie concordano, anche se non tutti i termini nella media sono uguali).Xt

Consentitemi di prendere la libertà di usare una notazione leggermente adattata.

Mostriamo innanzitutto che dove è la stima utilizzando tutti i dati e la stima quando si esce da , osservazione . Consenti a essere definito come un vettore riga tale che . sono i residui.(A)

β^-β^(t)=(u^t1-ht)(X'X)-1Xt',(UN)
β (t)X(t)tXt y t=Xt β u tβ^β^(t)X(t)tXty^t=Xtβ^u^t

La dimostrazione utilizza il seguente risultato algebrico della matrice.

Sia una matrice non singolare, un vettore e uno scalare. Se Quindi b λ λUNBλ (A+λbb)-1

λ-1B'UN-1B
(UN+λBB')-1=UN-1-(λ1+λB'UN-1B)UN-1BB'UN-1(B) 

La prova di (B) segue immediatamente dalla verifica

{UN-1-(λ1+λB'UN-1B)UN-1BB'UN-1}(UN+λBB')=io.

Il seguente risultato è utile per dimostrare (A)

(X(t)'X(t))-1Xt'=(11-ht)(X'X)-1Xt'. (C)

Prova di (C): con (B) abbiamo, usando , Quindi troviamo ( X ( t ) X ( t ) ) - 1Σt=1TXt'Xt=X'X(X( t ) X(t))-1Xt

(X(t)'X(t))-1=(X'X-Xt'Xt)-1=(X'X)-1+(X'X)-1Xt'Xt(X'X)-11-Xt(X'X)-1Xt'.
(X(t)'X(t))-1Xt'=(X'X)-1Xt'+(X'X)-1Xt'(Xt(X'X)-1Xt'1-Xt(X'X)-1Xt')=(11-ht)(X'X)-1Xt'.

La dimostrazione di (A) ora segue da (C): Poiché abbiamo o Quindi, dove l'ultima uguaglianza segue da (C).( X ' ( t ) X ( t ) + X ' t X t ) β

X'Xβ^=X'y,
(X(t)'X(t)+Xt'Xt)β^=X(t)'y(t)+Xt'yt,
{ioK+(X(t)'X(t))-1Xt'Xt}β^=β^(t)+(X(t)'X(t))-1Xt'(Xtβ^+u^t).
β^=β^(t)+(X(t)'X(t))-1Xt'u^t=β^(t)+(X'X)-1Xt'u^t1-ht,

Ora, nota . Moltiplicare in (A) per , aggiungere su entrambi i lati e riordinare per ottenere, con i residui risultanti dall'uso di ( ), o X t y t u ( t ) β ( t ) y t - X tht=Xt(X'X)-1Xt'Xtytu^(t)β^(t)yt-Xtβ^(t)

u^(t)=u^t+(u^t1-ht)ht
u^(t)=u^t(1-ht)+u^tht1-ht=u^t1-ht

La definizione per è presente nella risposta. Presumo che questa sia una matrice con la riga rimossa. X(t)XXt
mpiktas,

Anche menzionando il fatto che sarebbe anche utile. X'X=Σt=1TXt'Xt
mpiktas,

@mpiktas, sì, grazie per i puntatori. Ho modificato per tenere conto del primo commento. Dove sarebbe esattamente il secondo aiuto? O semplicemente lasciarlo nel tuo commento?
Christoph Hanck,

3
Quando inizi la prova di (C) scrivi . Questo è un bel trucco, ma dubito che il lettore occasionale ne sia consapevole. (X(t)'X(t))-1=(X'X-Xt'Xt)-1
mpiktas,

1
Due anni dopo ... apprezzo ancora di più questa risposta, ora che ho passato una sequenza di modelli lineari a livello di laurea. Sto riapprendendo questo materiale con questa nuova prospettiva. Hai qualche suggerimento suggerito (libri di testo?) Che passa attraverso le derivazioni come quello che hai in questa risposta in dettaglio?
Clarinetist,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.