Derivazione della soluzione di lazo in forma chiusa


52

Per il problema lazo tale che \ | \ beta \ | _1 \ leq t . Vedo spesso il risultato di soglia minima \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) ^ + per il caso X ortonormale . Si sostiene che la soluzione possa essere "facilmente mostrata" come tale, ma non ho mai visto una soluzione funzionante. Qualcuno ha visto uno o forse ha fatto la derivazione?minβ(YXβ)T(YXβ)β1t

βjlasso=sgn(βjLS)(|βjLS|γ)+
X

Questo sembra leggermente confuso. All'inizio si assume un vincolo t e nella soluzione si introduce un parametro γ . Immagino che tu intenda che questi due siano collegati tramite il doppio problema, ma forse puoi chiarire cosa stai cercando.
cardinale

2
Rispondere parzialmente a @cardinal, trovare la β che minimizza (YXβ)(YXβ) soggetta a β1t equivale a trovare la β che minimizza (YXβ)(YXβ)+γj|βj|. Esiste una relazione 1-1 tra t e γ . Per "facilmente" capire perché il risultato della soglia minima è così, consiglierei di risolvere la seconda espressione (nel mio commento).

2
Un'altra nota, quando si trova la β che minimizza (YXβ)(YXβ)+γj|βj|, suddividi il problema nei casi βj>0 , βj<0 e β=0 .

2
Ah cardinale sì, 1-1 non è corretto. Correzione: per ogni t0 , è possibile trovare un γ0 .

3
Grazie per l'ottima discussione! Mi sono imbattuto in questo video su Coursera - Derivare l'aggiornamento della discesa delle coordinate del lazo , che è molto rilevante per questa discussione, e percorre la soluzione in modo molto elegante. Potrebbe essere utile per i futuri visitatori :-)
Zorbar

Risposte:


64

Questo può essere attaccato in diversi modi, compresi approcci abbastanza economici attraverso le condizioni di Karush – Kuhn – Tucker .

Di seguito è un argomento alternativo abbastanza elementare.

La soluzione dei minimi quadrati per un disegno ortogonale

Supponiamo che sia composto da colonne ortogonali. Quindi, la soluzione dei minimi quadrati è X

β^LS=(XTX)1XTy=XTy.

Alcuni problemi equivalenti

Tramite la forma lagrangiana, è chiaro che un problema equivalente a quello considerato nella domanda è

minβ12yXβ22+γβ1.

Espandendo il primo termine otteniamo e poiché non contiene alcun delle variabili di interesse, possiamo scartarlo e considerare ancora un altro problema equivalente, 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

Notando che , il problema precedente può essere riscritto come β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

La nostra funzione oggettiva è ora una somma di obiettivi, ciascuno corrispondente a una variabile separata , quindi possono essere risolti singolarmente.βi

Il tutto è uguale alla somma delle sue parti

Risolvi un certo . Quindi, vogliamo minimizzare i

Li=β^iLSβi+12βi2+γ|βi|.

Se , allora dobbiamo avere poiché altrimenti potremmo capovolgere il suo segno e ottenere un valore inferiore per la funzione obiettivo. Allo stesso modo se , allora dobbiamo scegliere .β^iLS>0βi0β^iLS<0βi0

Caso 1 : . Dal momento che , differenziandolo rispetto a e impostando uguale a zero , otteniamo e questo è possibile solo se il lato destro non è negativo, quindi in questo caso la soluzione effettiva è β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

Caso 2 : . Ciò implica che dobbiamo avere e quindi Differenziando rispetto a e impostando uguale a zero, otteniamo . Ma, ancora una volta, per garantire che ciò sia fattibile, abbiamo bisogno di , che si ottiene prendendo β^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

In entrambi i casi, otteniamo la forma desiderata e quindi abbiamo finito.

Osservazioni finali

Notare che con aumentare di , ciascuno deidiminuisce necessariamente, quindi anche . Quando , recuperiamo le soluzioni OLS e, per, otteniamo per tutti .γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i


2
Ottimo commento @cardinal!
Gary

9
+1 L'intera seconda metà può essere sostituita dalla semplice osservazione che la funzione obiettivo è un'unione di parti di due parabole convesse con vertici a , dove il segno negativo è preso per e il positivo altrimenti. La formula è solo un modo elegante di scegliere il vertice inferiore. β12β2+(±γβ^)β±γβ^β<0
whuber

Se possibile, vorrei vedere le derivazioni usando le condizioni di ottimalità di KKT. Quali altri modi ci sono per ottenere questo risultato?
user1137731

5
@Cardinal: grazie per una bella derivazione. Un'osservazione Se ricordo, la matrice con colonne ortogonali non è la stessa di una matrice ortogonale (aka ortogonale). Quindi per una matrice diagonale (non necessariamente matrice di identità). Con l'assunzione della matrice ortogonale (come nella domanda originale), abbiamo e tutto sembra fantastico :)XX=DDXX=I
Oleg Melnikov

@cardinale Non capisco perché dici "poiché altrimenti potremmo capovolgere il suo segno e ottenere un valore più basso per la funzione obiettivo". Stiamo prendendo la derivata della funzione oggettiva. E se la funzione obiettivo fosse più alta o più bassa, chi se ne frega. Tutto ciò che ci interessa è che la derivata sia impostata su zero, ci preoccupiamo degli estremi. Che sia superiore o inferiore di una costante non influisce sull'argmin.
user13985

7

Si supponga che il covariate , le colonne di , inoltre sono standardizzati in modo che . Questo è solo per comodità in seguito: senza di esso, la notazione diventa più pesante poiché è solo diagonale. Supponi inoltre che . Questo è un presupposto necessario affinché il risultato sia valido. Definisci lo stimatore dei minimi quadrati . Quindi, lo stimatore del lazo (forma lagrangiana) xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ end {align *} dove è l'operatore prossimale di una funzione e soglie morbide per la quantitàproxffSαα.

Questa è una derivazione che salta la derivazione dettagliata dell'operatore prossimale elaborata da Cardinal, ma, spero, chiarisce i passaggi principali che rendono possibile una forma chiusa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.