Relazione tra regressione della cresta e regressione della PCA


19

Ricordo di aver letto da qualche parte sul web una connessione tra regressione della cresta (con 2 regolarizzazione) e regressione della PCA: durante l'utilizzo della regressione 2 regolata con iperparametro λ , se λ0 , la regressione equivale alla rimozione della variabile PC con il più piccolo autovalore.

  • Perché è vero?
  • Questo ha qualcosa a che fare con la procedura di ottimizzazione? Ingenuamente, mi sarei aspettato che fosse equivalente a OLS.
  • Qualcuno ha un riferimento per questo?

1
Potresti spiegare più esplicitamente come PCA e regressione sono collegati nella tua dichiarazione? La regressione distingue dipendenti da variabili indipendenti, mentre nel PCA non si verifica nulla del genere. Quindi a quali variabili stai applicando il PCA? Non possono essere solo le variabili indipendenti, poiché ciò avrebbe poco a che fare con la regressione. Ma se viene applicato a tutte le variabili, gli autovettori sono combinazioni lineari di tutte. Cosa potrebbe significare rimuovere un componente del genere dal set di dati, poiché coinvolge la variabile dipendente?
whuber

1
La connessione (come ho capito) è che se si utilizza una penalità di regolarizzazione molto piccola, una regressione regolarizzata L2 rimuoverà la variabile che ha l'autovalore più piccolo. Pertanto, eseguire SVD sulla matrice di progettazione e rimuovere la variabile con l'autovalore più piccolo equivale a una regressione con una penalità di regolarizzazione "debole" ... Questa è la spiegazione più vicina che ho trovato a questo: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
Il tuo riferimento sembra dimostrare il contrario di quello che stai dicendo nei tuoi commenti: per i piccoli , i risultati cambiano molto poco. Niente viene rimosso affatto. In effetti, diverse diapositive sembrano volte a evidenziare la differenza tra regressione penalizzata di L 2 (in cui le stime sono ridotte a 0 ) e "regressione di PCA" (in cui i componenti più piccoli vengono completamente rimossi - il che può essere una brutta cosa in alcune circostanze). λL20
whuber

2
Mmm .. ha trovato un altro riferimento: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Nella diapositiva " e componenti principali", si dice che i progetti di regressione della cresta y su questi componenti con grande dj * sigh *yridge
Jose G

3
Hai notato che p. 14 di quell'ultimo riferimento risponde esplicitamente alla tua domanda?
whuber

Risposte:


23

Sia la matrice predittiva n × p centrata e si consideri la sua scomposizione del valore singolare X = U S V con S che è una matrice diagonale con elementi diagonali s i .Xn×pX=USVSsi

I valori stimati di minimi quadrati ordinari (OLS) regressione sono date da y O L S = X β O L S = X ( XX ) - 1 Xy = U Uy . I valori stimati della regressione cresta sono date da y r i d g e = X β r i d g e = X ( XX

y^OLS=XβOLS=X(XX)1Xy=UUy.
I valori stimati della PCA regressione (PCR) conkcomponenti sono date da y PCR=XPCAβPCR=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
k dove sono presenti k seguiti da zero.
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
k

Da qui possiamo vedere che:

  1. Se allora y r i d g e = y O L S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ

  3. kλ=0kλ=

  4. Ciò significa che la regressione della cresta può essere vista come una "versione regolare" della PCR.

    siX

  5. La regressione della cresta tende a ottenere prestazioni migliori nella pratica (ad es. Per ottenere prestazioni con convalida incrociata superiore).

  6. λ0y^ridgey^OLSsi

Un buon riferimento è The Elements of Statistical Learning , Sezione 3.4.1 "Ridge regression".


Vedi anche questo thread: Interpretazione della regolarizzazione della cresta in regressione e in particolare della risposta di @BrianBorchers.


siβLeastsquares

k
Udiag(11,12,...,1k,0,...,0)UTy

Questo è bellissimo.
xxx222,

6

Elements of Statistical Learning ha una grande discussione su questa connessione.

Il modo in cui ho interpretato questa connessione e logica è il seguente:

  • PCA è una combinazione lineare delle variabili caratteristica, che tenta di massimizzare la varianza dei dati spiegata dal nuovo spazio.
  • I dati che soffrono di multicollinearità (o più predittori di righe di dati) portano a una matrice di covarianza che non ha un rango completo.
  • Con questa matrice di covarianza, non possiamo invertire per determinare la soluzione dei minimi quadrati; questo fa sì che l'approssimazione numerica dei coefficienti dei minimi quadrati esploda all'infinito.
  • La regressione della cresta introduce la pena Lambda sulla matrice di covarianza per consentire l'inversione della matrice e la convergenza dei coefficienti LS.

La connessione PCA è che la regressione della cresta sta calcolando le combinazioni lineari delle caratteristiche per determinare dove si sta verificando la multicollinearità. Le combinazioni lineari di caratteristiche (Principle Component Analysis) con la varianza più piccola (e quindi valori singolari più piccoli e autovalori minori nella PCA) sono quelle penalizzate più duramente.

Pensare in questo modo; per le Combinazioni lineari di funzioni con varianza minima, abbiamo trovato le caratteristiche più simili, causando quindi la multicollinearità. Poiché Ridge non riduce il set di funzionalità, qualunque direzione stia descrivendo questa combinazione lineare, la funzione originale corrispondente a quella direzione viene penalizzata maggiormente.


2

Xβ=y,
X
X=USVT,
S=diag(si)

β

βOLS=VS1UT
si

S1β

Sridge1=diag(sisi2+α),βridge= VSridge1UT

PCA replaces S1 by

SPCA1=diag(1siθ(siγ)),βPCA= VSPCA1UT
wehre θ is the step function, and γ is the threshold parameter.

Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.

More abstractly, feel free to come up with your own regularization scheme

SmyReg1=diag(R(si)),
where R(x) is a function that should approach zero for x0 and R(x)x1 for x large. But remember, there's no free lunch.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.