La prova dei coefficienti di riduzione usando la regressione della cresta attraverso la "decomposizione spettrale"


20

Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".


4
Hai dichiarato di essere confuso, ma qual è la tua domanda?
whuber

Risposte:


30

La domanda sembra richiedere una dimostrazione che la regressione della cresta riduce le stime dei coefficienti verso zero, usando una decomposizione spettrale. La decomposizione spettrale può essere intesa come una facile conseguenza della decomposizione del valore singolare (SVD). Pertanto, questo post inizia con SVD. Lo spiega in termini semplici e poi lo illustra con importanti applicazioni. Quindi fornisce la dimostrazione (algebrica) richiesta. (L'algebra, ovviamente, è identica alla dimostrazione geometrica; è semplicemente scritta in una lingua diversa.)

La fonte originale di questa risposta può essere trovata nelle mie note sul corso di regressione . Questa versione corregge alcuni errori minori.


Che cos'è SVD

Qualsiasi matrice X , con p n , può essere scritta X = U D V doven×pXpn

X=UDV'
  1. è unamatrice n × p .Un×p

    • Le colonne di hanno lunghezza 1 .U1
    • Le colonne di sono reciprocamente ortogonali.U
    • Essi sono chiamati i componenti principali di .X
  2. è unamatrice p × p .Vp×p

    • Le colonne di hanno lunghezza 1 .V1
    • Le colonne di sono reciprocamente ortogonali.V
    • Questo rende una rotazione di R p .VRp
  3. è unamatricediagonale p × p .D p×p

    • Gli elementi diagonali non sono negativi. Questi sono i valori singolari di X .d11,d22,...,dppX
    • Se lo desideriamo, possiamo ordinarli dal più grande al più piccolo.

I criteri (1) e (2) affermano che sia che V sono matrici ortonormali . Possono essere ordinatamente riassunti dalle condizioniUV

U'U=1p, V'V=1p.

Di conseguenza (quella rappresenta una rotazione), anche V V = 1 p . Questo sarà usato nella derivazione della regressione della cresta di seguito.VVV'=1p

Cosa fa per noi

Può semplificare le formule. Funziona sia algebricamente che concettualmente. Ecco alcuni esempi.

Le equazioni normali

Considera la regressione dove, come al solito, ε sono indipendenti e identicamente distribuiti secondo una legge che ha zero aspettativa e varianza finita σ 2 . La soluzione dei minimi quadrati tramite il normale Equazioni è β = ( X ' X ) - 1 x ' y . Applicare SVD e semplificare il risultante pasticcio algebrico (che è facile) fornisce una buona visione:y=Xβ+εεσ2

β^=(X'X)-1X'y.

(X'X)-1X'=((UDV')'(UDV'))-1(UDV')'=(VDU'UDV')-1(VDU')=VD-2V'VDU'=VD-1U'.

L'unica differenza tra questo e è che vengono utilizzati i reciproci degli elementi di D ! In altre parole, l '"equazione" y = X β è risolta "invertendo" X : questa pseudo-inversione annulla le rotazioni U e V (semplicemente trasponendole) e annulla la moltiplicazione (rappresentata da D ) separatamente in ogni principale direzione.X'=VDU'Dy=XβXUV'D

Per riferimento futuro, si noti che "ruotato" stime β sono combinazioni lineari delle "ruotato" risposte U ' y . I coefficienti sono inverse degli elementi (positivi) diagonali di D , pari a d - 1 i i .V'β^U'yDdioio-1

Covarianza delle stime dei coefficienti

Ricordiamo che la covarianza delle stime è Usando SVD, questo diventa σ 2 ( V D 2 V ) - 1 = σ 2 V D - 2 V . In altre parole, la covarianza si comporta come quella di k variabili ortogonali , ognuna con varianze d 2 i i

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2, che sono stati ruotati in .Rk

La matrice del cappello

La matrice del cappello è Per mezzo del risultato precedente possiamo riscriverlo come H = ( U D V ) ( V D - 1 U ) = U U . Semplice!

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Autigenanalisi (decomposizione spettrale)

Poiché e X X = U D V V D U = U D 2 U , è immediato che

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • Gli autovalori di e X X sono i quadrati dei valori singolari.XXXX
  • Le colonne di sono gli autovettori di X ' X .VXX
  • UXX

SVD può diagnosticare e risolvere problemi di collinearità.

Approssimazione dei regressori

UDVUy

Regressione della cresta

XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

β^D1=D2D(D2+λ)1DD2/(D2+λ)λ>0


Vβ^RUydii1dii2/(dii2+λ)λβ^R

dii1


1
@Glen_b Questo è un buon punto: dovevo essere esplicito su quale frazione stavo prendendo in considerazione! Lo aggiusterò.
whuber

1
UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p

1
@Vimal Grazie per il buon suggerimento. Ho ora incluso una spiegazione nella sezione "Equazioni normali" in cui viene introdotto il modello di regressione.
whuber

1
X
VDU'=X'=X=UDV'.
U=VX

1
y^
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.