Come derivare la soluzione di regressione della cresta?


41

Sto riscontrando alcuni problemi con la derivazione della soluzione per la regressione della cresta.

Conosco la soluzione di regressione senza il termine di regolarizzazione:

β=(XTX)1XTy.

Ma dopo aver aggiunto il termine L2 alla funzione di costo, come mai la soluzione diventaλβ22

β=(XTX+λI)1XTy.

Risposte:


24

È sufficiente modificare la funzione di perdita aggiungendo la penalità. In termini di matrice, la funzione di perdita quadratica iniziale diventa

(Y-Xβ)T(Y-Xβ)+λβTβ.
La derivazione rispetto a β porta all'equazione normale
XTY=(XTX+λio)β
che porta allo stimatore di Ridge.

1
Come mai la derivata di λβTβ è uguale a λioβ
user34790

4
@ user34790 Non lo è. È uguale a 2λβ . Ma il 2 annulla con 2 simili simili sugli altri termini. Certo, il fattore io è come un fattore 1 nell'algebra "normale", puoi moltiplicarlo dove vuoi senza cambiare nulla.
Bill

4
@ Bill: qui è necessario l' per ottenere una matrice di dimensione corretta per cui l'aggiunta lavora con : è solo uno scalareX T X λioXTXλ
Henry

48

Costruiamo su ciò che sappiamo, ovvero che ogni volta che la matrice del modello è , la risposta -vector è e il parametro -vector è , la funzione obiettivoX n y p βn×pXnypβ

f(β)=(y-Xβ)'(y-Xβ)

(che è la somma dei quadrati dei residui) viene minimizzata quando risolve le equazioni normaliβ

(X'X)β=X'y.

La regressione della cresta aggiunge un altro termine alla funzione obiettivo (di solito dopo aver standardizzato tutte le variabili per metterle su una base comune), chiedendo di minimizzare

(y-Xβ)'(y-Xβ)+λβ'β

per alcune costanti non negative . È la somma dei quadrati dei residui più un multiplo della somma dei quadrati dei coefficienti stessi (rendendo evidente che ha un minimo globale). Poiché , ha una radice quadrata positiva .λ 0 ν 2 = λλλ0ν2=λ

Considera la matrice aumentata con righe corrispondenti a volte la matrice di identità :ν p × p IXνp×pio

X*=(Xνio)

Quando il vettore viene similmente estesa con zeri alla fine per , il prodotto matrice nella funzione obiettivo aggiunge ulteriori termini della forma all'obiettivo originale. Perciòp y p ( 0 - ν β i ) 2 = λ β 2 iypy*p(0-νβio)2=λβio2

(y*-X*β)'(y*-X*β)=(y-Xβ)'(y-Xβ)+λβ'β.

Dalla forma dell'espressione della mano sinistra è immediato che le equazioni normali siano

(X*'X*)β=X*'y*.

Poiché abbiamo annesso zeri alla fine di , il lato destro è uguale a . Sul lato sinistro è aggiunto a quello originale . Pertanto le nuove equazioni normali si semplificanoX y ν 2 I = λ I X XyX'yν2io=λioX'X

(X'X+λio)β=X'y.

Oltre ad essere concettualmente economico - non sono necessarie nuove manipolazioni per ottenere questo risultato - è anche computazionalmente economico: il tuo software per fare i minimi quadrati ordinari farà anche regressione cresta senza alcun cambiamento. (Tuttavia, può essere utile in grossi problemi usare software progettato per questo scopo, perché sfrutterà la struttura speciale di per ottenere risultati efficienti per un intervallo densamente spaziato di , permettendoti di esplorare come variano le risposte con .) λ λX*λλ

Un'altra bellezza di questo modo di vedere le cose è come può aiutarci a capire la regressione della cresta. Quando vogliamo capire veramente la regressione, aiuta quasi sempre a pensarci bene geometricamente: le colonne di costituiscono vettori in un vero e proprio spazio vettoriale di dimensione . Adiacente a , prolungandoli così da -vettori a -vettori, stiamo incorporando in uno spazio più ampio includendo direzioni "immaginarie", reciprocamente ortogonali. La prima colonna dip n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0XpnνioXnn+pRnRn+ppXviene dato un piccolo componente immaginario di size , allungandolo in tal modo e spostandolo dallo spazio generato dalle colonne originali . Le colonne secondo, terzo, ..., sono analogamente allungate e spostate dallo spazio originale della stessa quantità - ma tutte in nuove direzioni diverse. Di conseguenza, qualsiasi collinearità presente nelle colonne originali verrà immediatamente risolta. Inoltre, il più grande diventa, più questi nuovi vettori avvicinano l'individuoνppesimoννpdirezioni immaginarie: diventano sempre più ortonormali. Di conseguenza, la soluzione delle equazioni normali diventerà immediatamente possibile e diventerà rapidamente numericamente stabile all'aumentare di da .ν0

Questa descrizione del processo suggerisce alcuni approcci innovativi e creativi per affrontare i problemi che Ridge Regressione è stato progettato per gestire. Ad esempio, usando qualsiasi mezzo (come la decomposizione della varianza descritta da Belsley, Kuh e Welsch nel loro libro del 1980 su Regressione Diagnostics , Capitolo 3), potresti essere in grado di identificare sottogruppi di colonne quasi collineari di , dove ogni sottogruppo è quasi ortogonale a tutti gli altri. Hai solo bisogno adjoin tante righe per (e zero per ) in quanto non vi sono elementi nel gruppo più numeroso, dedicando una nuova dimensione "immaginario" per spostare ogni elemento di un gruppo di distanza dai suoi fratelli: non è necessario immaginaria dimensioni per farlo.X y pXXyp


2
L'ultimo autore del libro è Welsch, non gallese.
Mark L. Stone,

1
Whoa, questo mi ha fatto impazzire. C'è qualche discussione su cosa succede quando questo è generalizzato al di fuori dei modelli lineari, vale a dire a quelli di glm? La penalità non dovrebbe essere la stessa della regressione della cresta ... ma questa interpretazione implica che sarebbe ancora un potenziale stimatore utile!
Cliff AB,

2
@Cliff È un suggerimento molto interessante. Poiché, tuttavia, le stime GLM dipendono in modo più complicato da e i loro stimatori di solito non possono essere fattorizzati nella forma come lo sono per OLS (dove e ), può essere difficile stabilire un rapporto utile tra imporre funzione di penalità e modificando le colonne di . In particolare, non è chiaro come i valori in dovrebbero essere aumentati per far funzionare questo. β = g ( X ) h ( y ) g ( X ) = ( X ' X ) - 1 X ' h ( y ) = y X yX
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
Sì, ci vorrebbe un po 'di tempo per provare a stabilire quale sia la penalità, ma non sono così preoccupato. L'idea di quale usare non è generalmente facile neanche ... tranne forse nel caso della regressione logistica, dove potremmo aggiungere due ; uno di 0 e uno di 1. Questo aumento sarebbe quindi una versione più generale dello "+2 stimatore binomiale" (esiste un nome più appropriato per questo stimatore su cui mi sto nascondendo, che è fondamentalmente quando si sta valutando da una distribuzione binomiale usando la media posteriore come la stima con un'uniforme precedente a ). y p py* y*pp
Cliff AB,

@Mark Grazie per la correzione. Puoi dire che stavo andando dalla memoria ... :-).
whuber

20

La derivazione include il calcolo della matrice, che può essere abbastanza noioso. Vorremmo risolvere il seguente problema:

minβ(Y-βTX)T(Y-βTX)+λβTβ

Ora nota che e Insieme arriviamo alla condizione del primo ordine isolamento produce la soluzione: λβTβ

(Y-βTX)T(Y-βTX)β=-2XT(Y-βTX)
XTY=XTXβ+λβ. ßß=(XTX+λI)-1XTY.
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λio)-1XTY.

9

Di recente mi sono imbattuto nella stessa domanda nel contesto di P-Splines e poiché il concetto è lo stesso, voglio dare una risposta più dettagliata sulla derivazione dello stimatore della cresta.

Iniziamo con una funzione di criterio penalizzata che differisce dalla classica funzione di criterio OLS per il suo termine di penalizzazione nell'ultimo summand:

CrioterioonRiodge=Σio=1n(yio-XioTβ)2+λΣj=1pβj2

dove

  • p= la quantità di covariabili utilizzate nel modello
  • XioTβ= tuo predittore lineare standard
  • il primo summand rappresenta l'MSE (divergenza quadrata della previsione dal valore reale) che vogliamo minimizzare come al solito
  • il secondo summand rappresenta la penalizzazione che applichiamo ai coefficienti. Eccoci nel contesto della cresta che implica una misura della distanza euclidea e quindi il grado di 2 nel termine di penalizzazione. Nel caso di una penalizzazione del lazo, applicheremmo un grado di 1 e produrremmo uno stimatore totalmente diverso.

Possiamo riscrivere questo criterio in notazione a matrice e scomporlo ulteriormente:

CrioterioonRiodge=(y-Xβ)T(y-Xβ)+λβTβ

=yTy-βTXTy-yTXβ+βTXTXβ+λβTβ

I=yTy-βTXTy-βTXTy+βTXTXβ+βTλioβ con essendo la matrice identitàio

=yTy-2βTXTy+βT(XTX+λio)β

Ora cerchiamo la che minimizza il nostro criterio. Tra gli altri utilizziamo la regola di differenziazione della matrice che possiamo applica qui come : x T A xβ(XTX+λI)Rn×nXTUNXX=(UN+UNT)X=Un simmetrico2UNX(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@Jahn, puoi spiegare come diventato ? Penso che tu abbia appena applicato il recepimento, giusto. Ma non puoi semplicemente applicare la trasposizione su un termine senza applicarlo su tutte le equazioni. Cosa mi sto perdendo qui?
yTXβ
βTXTy
teatrista,

1
@theateist Uno scalare trasposto è lo stesso scalare.
Konstantin,

2

Ci sono alcune cose importanti che mancano nelle risposte fornite.

  1. La soluzione per deriva dalla condizione necessaria del primo ordine: che produce . Ma è sufficiente? Cioè, la soluzione è un minimo globale solo se è strettamente convesso. Questo può essere dimostrato essere vero.βfriodge(β,λ)β=0β=(XTX+λio)-1XTYfriodge(β,λ)

  2. Un altro modo di esaminare il problema è vedere l'equivalenza tra e vincolato a . OLS è l'acronimo di Ordinary Least Squares. Da questa prospettiva è solo la funzione lagrangiana utilizzata per trovare i minimi globali della funzione dell'obiettivo convesso vincolata alla funzione convessa .friodge(β,λ)fOLS(β)=(Y-βTX)T(Y-βTX)||β||22tfriodge(β,λ)fOLS(β)||β||22

Una buona spiegazione di questi punti e la derivazione di possono trovare in queste belle note di lezione: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.