Le statistiche di convalida incrociata (CV) e di convalida incrociata generalizzata (GCV)


23

Ho trovato definizioni forse contrastanti per la statistica di convalida incrociata (CV) e per la statistica di convalida incrociata generalizzata (GCV) associata a un modello lineare Y=Xβ+ε (con un vettore di errore omoscedastico normale ε ).

Da un lato, Golub, Heath & Wahba definiscono la stima GCV λ^ come (p. 216)

il minimizzatore di V(λ) dato da

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
dove A(λ)=X(XTX+nλI)1XT

D'altra parte, Efron definisce lo stesso concetto di V(0) (p. 24), tuttavia attribuisce l'introduzione di questo concetto a Craven & Wahba, dove la sua definizione (p. 377) è essenzialmente la stessa come sopra definito Golub, Heath e Wahba.

Questo significa che 0 minimizza V(λ) ?

Allo stesso modo, Golub, Heath e Wahba definiscono la stima CV di λ (p. 217) come minimizzatore di

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

dove β(k)(λ) è la stima

β^(λ)=(XTX+nλI)1XTy

di β con il k esimo punto dati yi omesso.

Gli autori attribuiscono l'introduzione della stima CV (anche chiamata stima PRESS) ad Allen ("Allen's PRESS", ibid.) Tuttavia nel documento di Allen, la stima PRESS viene definita (p. 126) come nP(0) (nell'articolo di Efron è definito come P(0) (p. 24)).

Ancora una volta, questo significa che 0 minimizza P(λ) ?


  1. Allen, David M. La relazione tra selezione delle variabili e documentazione dei dati e un metodo di predizione. Technometrics, Vol. 16, n. 1 (febbraio 1974), pagg. 125-127

  2. Craven, Peter e Wahba, Grace. Smoothing dei dati rumorosi con le funzioni spline. Numerische Mathematik 31, (1979), pagg. 377-403

  3. Efron, Bradley. Quanto è distorto il tasso di errore apparente di una regressione logistica? Rapporto tecnico n. 232. Dipartimento di Statistica, Stanford University (aprile 1985)

  4. Golub, Gene H., Heath e Grace Wahba. Convalida incrociata generalizzata come metodo per la scelta di un buon parametro Ridge. Technometrics, Vol. 21, n. 2 (maggio 1979), pagg. 215-223


7
Hai dimenticato di menzionare che questo sarà dotato di regressione della cresta e non ultimi quadrati? Ero totalmente confuso su cosa fosse fino a quando non ho visto i titoli di carta in fondoλ
Shadowtalker

1
Rimuovi la convalida incrociata generalizzata nel titolo e aggiungi la regressione della cresta nel titolo. Ecco cosa GridSearchCV () ha come impostazione predefinita RidgeCV ():
HoofarLotusX

Risposte:


2

Credo che i commenti indichino la risposta, ma non la dichiarino senza mezzi termini. Quindi sarò schietto.

La formula V citata qui è specifica per la regressione della cresta lineare. Non dicono che è lo stesso di PRESS, dicono che è una versione invariante di rotazione di PRESS. La parte "invarianza di rotazione" è ciò che rende questo generalizzato.

L'articolo di Efron parla di regressione logistica, personalizzato in quel contesto. Se vuoi vedere la traduzione matematica tra i due contesti, il libro giusto da leggere è Elements of Statistical Learning, 2ed, di Hastie, Tibshirani e Freedman. Offrono quel libro gratuitamente, online: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Un'altra utile lettura su GCV è Generalized Additive Models di Simon Wood. Il suo trattamento integra GCV in generale con applicazioni in regressione e regressione logistica.

Se guardi il libro ESL, p 244, vedi sostanzialmente la stessa simbologia. Si riferiscono a quel grande prodotto a matrice che hai come matrice Smoother (direi che è una matrice Hat o un cugino vicino). Descrivono Smoother come la mappatura da aSyy^

y^=Sy

S può essere utilizzato per calcolare lasciare un CV fuori valore, uno per ogni riga nei dati. Per i modelli lineari , la matrice svolge il ruolo della matrice Hat nella diagnostica di regressione. Tuttavia, dicono che potrebbe essere complicato dal punto di vista computazionale o non necessario risolverlo, e l'approccio GCV è una versione leggermente più generale della stessa idea.S

Offrono una formula per l' approssimazione di GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

Questo è abbastanza simile nel comportamento all'AIC in molti modelli. La è il numero effettivo di parametri.traceS

Il pezzo che si citi è più in generale, una traccia di . Per quanto posso capire, in astratto GCV è una versione approssimativa di lasciare una crossvalidation, ma in alcuni casi (credo che la regressione della cresta) sia esatta. Questo è un punto principale nel documento Golub.nλS

Buona fortuna, riscrivi se impari di più.


Grazie. Ho pubblicato la mia domanda oltre 5 anni fa e da allora ho dimenticato la maggior parte di questo materiale, quindi non posso valutare la tua risposta per dire se è buona (che sembra essere) o cattiva, e, per questo motivo Non posso accettarlo neanche. Grazie per la pubblicazione, però. Speriamo che sia utile per gli altri che potrebbero imbattersi in questa pagina.
Evan Aad il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.