In quali condizioni la regressione della cresta è in grado di fornire un miglioramento rispetto alla normale regressione dei minimi quadrati?


16

La regressione di Ridge stima i parametri β in un modello lineare y=Xβ by

β^λ=(XX+λI)1Xy,
dove λ è un parametro di regolarizzazione. È noto che spesso si comporta meglio della regressione OLS (con λ=0 ) quando ci sono molti predittori correlati.

Un teorema di esistenza per la regressione della cresta afferma che esiste sempre un parametro λ>0 tale che l'errore quadratico medio di β^λ è strettamente più piccolo dell'errore quadratico medio di OLS stima β^OLS=β^0 . In altre parole, un valore ottimale di λ è sempre diverso da zero. Ciò è stato apparentemente provato per la prima volta in Hoerl e Kennard, nel 1970, e viene ripetuto in molti appunti di lezione che trovo online (ad esempio qui e qui ). La mia domanda riguarda le ipotesi di questo teorema:

  1. Ci sono delle ipotesi sulla matrice di covarianza XX ?

  2. Ci sono ipotesi sulla dimensionalità di X ?

In particolare, il teorema è ancora vero se i predittori sono ortogonali (cioè XX è diagonale), o anche se XX=I ? Ed è ancora vero se ci sono solo uno o due predittori (diciamo, un predittore e un'intercettazione)?

Se il teorema non fa simili assunzioni e rimane vero anche in questi casi, allora perché la regressione della cresta è di solito consigliata solo nel caso di predittori correlati e mai (?) Raccomandata per una regressione semplice (cioè non multipla)?


Questo è legato alla mia domanda sulla visione unificata del restringimento: qual è la relazione (se presente) tra il paradosso di Stein, la regressione della cresta e gli effetti casuali nei modelli misti? , ma nessuna risposta chiarisce questo punto fino ad ora.


1
Sembra quasi che l'ultima domanda sia affrontata direttamente nel documento Hoerl & Kennard, specialmente nella prima frase dell'Introduzione e nella prima frase delle Conclusioni. All'ultima domanda si può rispondere notando che la covarianza tra un vettore costante e qualsiasi singolo predittore è sempre zero, il che consente a uno (in modo standard) di ridurre a una matrice . XX1×1
whuber

1
Grazie, @whuber. Credo che il documento di Hoerl & Kennard risponda alle mie domande (almeno quelle tecniche) - si dovrebbe essere in grado di seguire la prova e verificare le ipotesi (non l'ho ancora fatto). Ma non sono pienamente convinto delle frasi a cui ti riferisci. In che modo la prima frase dell'intro è collegata alla mia domanda? La prima frase delle Conclusioni suggerisce che se ha uno spettro uniforme (ad esempio è uguale a ), allora il teorema non si applica. Ma non sono sicuro al 100%, poiché non vedo questo assunto esplicitamente dichiarato prima della prova. IXXI
ameba dice Ripristina Monica il

Guarda quali tipi di domande possono essere poste dagli utenti di alto livello (che in genere rispondono solo a loro) (e allo stesso modo per l'altra tua domanda collegata che mi ha inviato qui stats.stackexchange.com/questions/122062/… !
javadba,

Risposte:


11

La risposta sia a 1 che a 2 è no, ma è necessaria attenzione nell'interpretazione del teorema dell'esistenza.

Varianza di Ridge Estimator

Sia la stima della cresta sotto la penalità k e sia β il vero parametro per il modello Y = X β + ϵ . Lasciate λ 1 , ... , λ p essere gli autovalori di X T X . Dalle equazioni di Hoerl & Kennard 4.2-4.5, il rischio (in termini della norma L 2 prevista dell'errore) èβ^kβY=Xβ+ϵλ1,,λpXTX
L2

dove per quanto ne so, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Osservano cheγ1ha l'interpretazione della varianza del prodotto interno di ^ β -β

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^β , mentre γ2 è il prodotto interiore del pregiudizio.

Supponendo , quindi R ( k ) = p σ 2 + k 2 β T βXTX=Ip Sia R(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
è la derivata del rischio w / r / tk. Poiché limk0+R(k)=-2pσ2<0, concludiamo che esiste qualchek>0tale cheR(k)<R
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0 .R(k)<R(0)

Gli autori osservano che l'ortogonalità è la migliore che si possa sperare in termini di rischio a , e che all'aumentare del numero di condizioni di X T X , lim k 0 + R ( k ) si avvicina - .k=0XTXlimk0+R(k)

Commento

Qui sembra esserci un paradosso, in quanto se e X è costante, allora stiamo solo stimando la media di una sequenza di variabili normali ( β , σ 2 ) e sappiamo che la stima imparziale alla vaniglia è ammissibile in questo caso. Ciò si risolve notando che il ragionamento di cui sopra prevede semplicemente che esiste un valore minimizzante di k per β T β fisso . Ma per ogni k , possiamo far esplodere il rischio creando βp=1X(β,σ2)kβTβk , quindi questo argomento da solo non mostra ammissibilità per la stima della cresta.βTβ

Perché la regressione della cresta è generalmente consigliata solo nel caso di predittori correlati?

βTβXTXβEYX è sospetto: la grande matrice di covarianza ne è un sintomo.

Ma se il tuo obiettivo è solo la previsione, le preoccupazioni inferenziali non valgono più e hai una forte argomentazione per l'utilizzo di una sorta di stimatore del restringimento.


2
βkkk=0

2
XX

3
β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ

3
λ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.