Perché la discesa gradiente prossimale invece di semplici metodi a gradiente inferiore per il lazo?


9

Stavo pensando di risolvere Lasso tramite metodi di laurea alla vaniglia. Ma ho letto persone che suggeriscono di usare la discesa gradiente prossimale. Qualcuno può evidenziare perché per il Lazo si possono usare i metodi GD prossimali anziché i metodi secondari alla vaniglia?

Risposte:


14

Una soluzione approssimativa può davvero essere trovata per il lazo usando metodi di grado inferiore. Ad esempio, supponiamo di voler ridurre al minimo la seguente funzione di perdita:

f(w;λ)=yXw22+λw1

Il gradiente del termine di penalità è per e per , ma il termine di penalità non è distinguibile a . Invece, possiamo usare il subgradient , che è lo stesso ma ha un valore di per .λwi<0λwi>00λsgn(w)0wi=0

Il subgradient corrispondente per la funzione di perdita è:

g(w;λ)=2XT(yXw)+λsgn(w)

Possiamo minimizzare la funzione di perdita usando un approccio simile alla discesa del gradiente, ma usando il sottogradiente (che è uguale al gradiente ovunque tranne , dove il gradiente non è definito). La soluzione può essere molto vicina alla vera soluzione lazo, ma potrebbe non contenere zeri esatti: laddove i pesi avrebbero dovuto essere pari a zero, prendono invece valori estremamente piccoli. Questa mancanza di vera scarsità è una delle ragioni per non usare metodi subgradient per il lazo. I solutori dedicati sfruttano la struttura del problema per produrre soluzioni veramente sparse in modo computazionalmente efficiente. Questo post0afferma che, oltre a produrre soluzioni sparse, i metodi dedicati (compresi i metodi del gradiente prossimale) hanno tassi di convergenza più rapidi rispetto ai metodi di livello inferiore. Dà alcuni riferimenti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.