Questo può essere attaccato in diversi modi, compresi approcci abbastanza economici attraverso le condizioni di Karush – Kuhn – Tucker .
Di seguito è un argomento alternativo abbastanza elementare.
La soluzione dei minimi quadrati per un disegno ortogonale
Supponiamo che sia composto da colonne ortogonali. Quindi, la soluzione dei minimi quadrati è
X
β^LS=(XTX)−1XTy=XTy.
Alcuni problemi equivalenti
Tramite la forma lagrangiana, è chiaro che un problema equivalente a quello considerato nella domanda è
minβ12∥y−Xβ∥22+γ∥β∥1.
Espandendo il primo termine otteniamo e poiché non contiene alcun delle variabili di interesse, possiamo scartarlo e considerare ancora un altro problema equivalente,
12yTy−yTXβ+12βTβyTy
minβ(−yTXβ+12∥β∥2)+γ∥β∥1.
Notando che , il problema precedente può essere riscritto come
β^LS=XTy
minβ∑i=1p−β^LSiβi+12β2i+γ|βi|.
La nostra funzione oggettiva è ora una somma di obiettivi, ciascuno corrispondente a una variabile separata , quindi possono essere risolti singolarmente.βi
Il tutto è uguale alla somma delle sue parti
Risolvi un certo . Quindi, vogliamo minimizzare
i
Li=−β^LSiβi+12β2i+γ|βi|.
Se , allora dobbiamo avere poiché altrimenti potremmo capovolgere il suo segno e ottenere un valore inferiore per la funzione obiettivo. Allo stesso modo se , allora dobbiamo scegliere .β^LSi>0βi≥0β^LSi<0βi≤0
Caso 1 : . Dal momento che ,
differenziandolo rispetto a e impostando uguale a zero , otteniamo e questo è possibile solo se il lato destro non è negativo, quindi in questo caso la soluzione effettiva è
β^LSi>0βi≥0
Li=−β^LSiβi+12β2i+γβi,
βiβi=β^LSi−γβ^lassoi=(β^LSi−γ)+=sgn(β^LSi)(|β^LSi|−γ)+.
Caso 2 : . Ciò implica che dobbiamo avere e quindi
Differenziando rispetto a e impostando uguale a zero, otteniamo . Ma, ancora una volta, per garantire che ciò sia fattibile, abbiamo bisogno di , che si ottiene prendendo
β^LSi≤0βi≤0
Li=−β^LSiβi+12β2i−γβi.
βiβi=β^LSi+γ=sgn(β^LSi)(|β^LSi|−γ)βi≤0β^lassoi=sgn(β^LSi)(|β^LSi|−γ)+.
In entrambi i casi, otteniamo la forma desiderata e quindi abbiamo finito.
Osservazioni finali
Notare che con aumentare di , ciascuno deidiminuisce necessariamente, quindi anche . Quando , recuperiamo le soluzioni OLS e, per, otteniamo per tutti .γ|β^lassoi|∥β^lasso∥1γ=0γ>maxi|β^LSi|β^lassoi=0i