Come applicare il metodo IRLS (Least Squares Squares Squares) al modello LASSO?

12

Ho programmato una regressione logistica usando l' algoritmo IRLS . Vorrei applicare una penalità LASSO per selezionare automaticamente le funzionalità giuste. Ad ogni iterazione, viene risolto quanto segue:

(X^{T} W X) δ \hat{β} = X^{T} (y - p)

$\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)}$

Sia un numero reale non negativo. Non sto penalizzando l'intercettazione come suggerito in The Elements of. Apprendimento statistico . Idem per i coefficienti già zero. Altrimenti, sottraggo un termine dal lato destro: $\lambda$

X^{T} (y - p) - λ \times s i g n (\hat{β})

$\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)}$

Tuttavia, non sono sicuro della modifica dell'algoritmo IRLS. È il modo giusto di fare?

Modifica: anche se non ero fiducioso, ecco una delle soluzioni che ho finalmente trovato. La cosa interessante è che questa soluzione corrisponde a ciò che ora capisco di LASSO. Ci sono infatti due passaggi per ogni iterazione anziché solo uno:

il primo passo è lo stesso di prima: facciamo un'iterazione dell'algoritmo (come se nella formula per il gradiente sopra), $\lambda=0$
il secondo passo è quello nuovo: applichiamo una soglia minima a ciascun componente (ad eccezione del componente , che corrisponde all'intercettazione) del vettore ottenuto al primo passo. Questo è chiamato algoritmo iterativo a soglia moderata . $\beta_0$ $\beta$

\forall i \geq 1, β_{i} \leftarrow s i g n (β_{i}) \times max (0, | β_{i} | - λ)

$\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)$

— Wok
fonte

Non è stato ancora possibile ottenere una migliore convergenza adattando IRLS. : '(

— Wok,

12

Questo problema è in genere risolto adattandosi per discesa delle coordinate ( vedi qui ). Questo metodo è sia più sicuro dal punto di vista numerico, sia algoritmicamente più semplice da implementare e applicabile a una gamma più generale di modelli (inclusa anche la regressione di Cox). Un'implementazione R è disponibile nel pacchetto R glmnet . I codici sono open source (in parte in e in C, in parte in R), quindi puoi usarli come progetti.

— user603
fonte

@wok Da notare, il pacchetto scikit.learn offre anche un'implementazione efficiente in Python per questo tipo di cose.

— chl

L'algoritmo di discesa delle coordinate è interessante. Grazie. Ci sto ancora pensando.

— Wok,

5

La funzione di perdita LASSO ha una discontinuità pari a zero lungo ciascun asse, quindi IRLS avrà dei problemi. Ho trovato molto efficace un approccio sequenziale di ottimizzazione minima (SMO), vedi ad es

http://bioinformatics.oxfordjournals.org/content/19/17/2246

una versione con il software MATLAB è

http://bioinformatics.oxfordjournals.org/content/22/19/2348

il software è disponibile qui:

http://theoval.cmp.uea.ac.uk/~gcc/cbl/blogreg/

L'idea di base è ottimizzare i coefficienti uno alla volta e testare per vedere se si attraversa la discontinuità un coefficiente alla volta, il che è semplice poiché si sta realizzando un'ottimizzazione scalare. Può sembrare lento, ma in realtà è piuttosto efficiente (anche se mi aspetto che da allora siano stati sviluppati algoritmi migliori - probabilmente da Keerthi o Chih-Jen Lin che sono entrambi i principali esperti in quel genere di cose).

— Dikran Marsupial
fonte

Grazie. Lo sto leggendo e ci sto pensando. Tuttavia, questa sarebbe un'enorme modifica dell'algoritmo attuale.

— Wok,

4

È possibile controllare il documento: efficiente regressione logistica regolarizzata L1, che è un algoritmo basato su IRLS per LASSO. Per quanto riguarda l'implementazione, il link potrebbe essere utile per te (http://ai.stanford.edu/~silee/softwares/irlslars.htm).

0

L'IRLS per il problema LASSO è il seguente:

\arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{1} = \arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ x^{T} W x

$\arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda \left\| x \right\|_{1} = \arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda {x}^{T} W {x}$

Dove è una matrice diagonale - . Questo viene da . $W$ ${W}_{i, i} = \frac{1}{ \left| {x}_{i} \right| }$
$\left\| x \right\|_{1} = \sum_{i} \left| {x}_{i} \right| = \sum_{i} \frac{ {x}_{i}^{2} } { \left| {x}_{i} \right| }$

Ora, quanto sopra è solo la regolarizzazione di Tikhonov .
Tuttavia, poiché dipende da necessario risolverlo iterativamente (Anche questo annulla il fattore 2 nella regolarizzazione di Tikhonov, poiché la derivata di rispetto a mentre si tiene come costante è che equivale a ): $W$ $x$ ${x}^{T} W x$ $x$ $x$ $\operatorname{diag} \left( \operatorname{sign} \left( x \right) \right)$ $W x$

x^{k + 1} = {(A^{T} A + λ W^{k})}^{- 1} A^{T} b

${x}^{k + 1} = \left( {A}^{T} A + \lambda {W}^{k} \right)^{-1} {A}^{T} b$

Dove . ${W}_{i, i}^{K} = \frac{1}{ \left| {x}^{k}_{i} \right| }$

Inizializzazione può essere da . $W = I$

Prestare attenzione a non funzionare bene con valori elevati di e utilizzare meglio ADMM o Coordinate Descent. $\lambda$

— Royi
fonte