Interpretazione della regolarizzazione della cresta nella regressione


25

Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati:

βridge=(λID+XX)1Xy

1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta la correlazione tra le variabili di input. Questa interpretazione è corretta?

2) Se si tratta di un'applicazione di restringimento, perché non è formulata nelle righe di , supponendo che in qualche modo possiamo limitare lambda a [0,1] range con una normalizzazione .(λID+(1λ)XX)

3) Quale può essere una normalizzazione per modo che possa essere limitata a un intervallo standard come [0,1].λ

4) L'aggiunta di una costante alla diagonale influirà su tutti gli autovalori. Sarebbe meglio attaccare solo i valori singolari o quasi singolari? È equivalente all'applicazione di PCA a X e al mantenimento dei componenti principali N-top prima della regressione o ha un nome diverso (poiché non modifica il calcolo della covarianza incrociata)?

5) Possiamo regolarizzare la covarianza incrociata o ha qualche utilità, ovvero

βridge=(λID+XX)1(γXy)

dove un piccolo abbasserà la covarianza incrociata. Ovviamente questo riduce allo stesso modo tutti i , ma forse esiste un modo più intelligente come il limite hard / soft a seconda del valore di covarianza.γβ


La penalità della cresta deriva da una restrizione che , mediante un moltiplicatore di Lagrange sulla funzione obiettivo MSE. LASSO è lo stesso ma con | β | anziché. Sono al telefono, quindi non posso pubblicare facilmente una derivazione al momento. Ma queste sono grandi domandeβ2T|β|
Shadowtalker il

Risposte:


19

Buone domande!

  1. Sì, questo è esattamente corretto. Puoi vedere la penalità della cresta come un modo possibile per affrontare il problema della multicollinearità che si presenta quando molti predittori sono altamente correlati. L'introduzione della penalità della cresta riduce efficacemente queste correlazioni.

  2. Penso che questa sia in parte tradizione, in parte il fatto che la formula di regressione della cresta, come indicato nella tua prima equazione, deriva dalla seguente funzione di costo: Se λ = 0 , il secondo termine può essere eliminato e la riduzione al minimo del primo termine ("errore di ricostruzione") porta alla formula OLS standard per β . Mantenere il secondo termine porta alla formula per . Questa funzione di costo è matematicamente molto conveniente da gestire, e questo potrebbe essere uno dei motivi per preferire lambda "non normalizzata".

    L=yXβ2+λβ2.
    λ=0ββridge
  3. Un modo possibile per normalizzare è ridimensionarlo in base alla varianza totale , ovvero usare invece di . Ciò non si limiterebbe necessariamente a a , ma lo renderebbe "senza dimensioni" e probabilmente comporterebbe un ottimale inferiore a in tutti i casi pratici (NB: questa è solo una supposizione!).[ 0 , 1 ] λ 1λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Attaccare solo piccoli autovalori" ha un nome separato ed è chiamato regressione dei componenti principali. La connessione tra PCR e regressione della cresta è che nella PCR si ha effettivamente una "penalità di passo" che taglia tutti gli autovalori dopo un certo numero, mentre la regressione della cresta applica una "penalità morbida", penalizzando tutti gli autovalori, con quelli più piccoli che vengono penalizzati di più. Questo è ben spiegato in The Elements of Statistical Learning di Hastie et al. (disponibile gratuitamente online), sezione 3.4.1. Vedi anche la mia risposta in Relazione tra regressione della cresta e regressione della PCA .

  5. Non l'ho mai visto, ma nota che potresti considerare una funzione di costo nella formaCiò riduce il tuo non a zero, ma ad un altro valore predefinito . Se uno risolve la matematica, arriverai al ottimale dato da che forse può essere visto come "regolarizzazione della covarianza incrociata"?β β 0 β β = ( XX + λ I ) - 1 ( Xy + λ β 0 ) ,

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),

1
Potresti spiegare perché l'aggiunta di a significa che la matrice di covarianza di è ridotta verso una matrice diagonale? Questa è una domanda di algebra puramente lineare suppongo. X X XλIDXXX
Heisenberg,

3
@Heisenberg, beh, è la matrice di covarianza di (fino a un fattore di ridimensionamento ). Il calcolo richiede l'inversione di questa matrice di covarianza. Nella regressione della cresta, invece, invertiamo , quindi si può vedere come una stima regolarizzata della matrice di covarianza. Ora il termine è una matrice diagonale con sulla diagonale. Immagina che sia molto grande; quindi la somma è dominata dal termine diagonale , e quindi la covarianza regolarizzata diventa sempre più diagonale man mano che cresce .X 1 / N β X X + λ I X X + λ I λ I λ λ λ I λXXX1/NβXX+λIXX+λIλIλλλIλ
ameba dice di reintegrare Monica il

wrt Q5, Elements of Statistical Learning esamina i vincoli di uniformità per le applicazioni di elaborazione delle immagini (PDA - pagina 447)
seanv507,

10

Un ulteriore commento sulla domanda 4. In realtà, la regressione della cresta si occupa in modo abbastanza efficace dei piccoli autovalori di , lasciando per lo più solo gli autovalori di grandi dimensioni. XTX

Per vedere questo, esprimi lo stimatore di regressione della cresta in termini di decomposizione del valore singolare di , X

X=i=1nσiuiviT

dove vettori sono reciprocamente ortogonali e anche vettori sono reciprocamente ortogonali. Qui gli autovalori di sono , . v i X T X σ 2 i i = 1 , 2 , , nuiviXTXσi2i=1,2,,n

Quindi puoi dimostrarlo

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Ora, considera i "fattori filtro" . Se , i fattori di filtro sono 1 e otteniamo la soluzione dei minimi quadrati convenzionale. Se e , il fattore filtro è essenzialmente 1. Se , questo fattore è essenzialmente 0. Pertanto, i termini corrispondenti agli autovalori piccoli vengono effettivamente eliminati, mentre quelli corrispondenti agli autovalori più grandi vengono mantenuti. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

In confronto, la regressione dei componenti principali utilizza semplicemente i fattori 1 (per gli autovalori più grandi) o 0 (per gli autovalori più piccoli che vengono eliminati) in questa formula.


1
Questo è esattamente ciò a cui ho fatto brevemente riferimento nella mia risposta, ma è molto bello averlo elaborato e dimostrato matematicamente, +1.
ameba dice di reintegrare Monica il

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

La tecnica che descrivi come "attacco [ing] solo i valori singolari o quasi singolari" è anche nota come Analisi dello spettro singolare (ai fini della regressione lineare) (vedi Eq. 19), se per "attaccare" intendi "rimuovere ". La covarianza incrociata è invariata.

X


Grazie. Nella PCR la covarianza con y viene calcolata dopo l'esecuzione della riduzione della dimensione, no? È questa la differenza tra PCR e SSA? La tua gamma (non la mia), come fai a selezionarla affinché l'alfa sarà [0,1] limitata?
Cagdas Ozgenc,

1
γκ

Penso che tu abbia ragione sulla differenza tra SSA e PCR, dovremmo scriverlo per essere sicuro, però.
Vincent Guillemot,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.