Perché la penalità del lazo equivale al doppio esponenziale (Laplace) precedente?


27

Ho letto in numerosi riferimenti che la stima del lazo per il vettore di parametro di regressione è equivalente al modo posteriore di in cui la distribuzione precedente per ciascun è una doppia distribuzione esponenziale (nota anche come distribuzione di Laplace).BBBi

Ho cercato di dimostrarlo, qualcuno può approfondire i dettagli?


@ user777 Ho sfogliato quel libro per un po 'oggi. Impossibile trovare nulla di rilevante.
Wintermute,

Risposte:


30

Per semplicità consideriamo solo una singola osservazione di una variabile tale che Y

Y|μ,σ2N(μ,σ2),

μLaplace(λ) e il precedente improprio f(σ)1σ>0 .

Quindi la densità articolare di Y,μ,σ2 è proporzionale a

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Prendere un registro e scartare i termini che non comportano μ ,

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Pertanto, il massimo di (1) sarà una stima MAP ed è effettivamente il problema del lazo dopo la ri-parametrizzazione di λ~=λσ2 .

L'estensione alla regressione è chiara: sostituisci con nella verosimiglianza Normale e imposta il precedente su in modo che sia una sequenza di distribuzioni indipendenti laplace .X β β ( λ )μXββ(λ)


25

Ciò è evidente dall'ispezione della quantità che LASSO sta ottimizzando.

Prendi il precedente per come Laplace indipendente con zero medio e qualche scala . τβiτ

Quindi .p(β|τ)e12τi|βi|

Il modello per i dati è la solita ipotesi di regressione .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Ora meno due volte il tronco del posteriore è della forma

1k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Let e otteniamo -posterior di- 2 logλ=σ2/τ2log

1k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

Lo stimatore MAP per minimizza quanto sopra, che minimizzaβ

S=(yXβ)T(yXβ)+λi|βi|

Quindi lo stimatore MAP per è LASSO.β

(Qui ho trattato come riparato efficacemente ma puoi fare altre cose con esso e far uscire ancora LASSO.)σ2

Modifica: ecco cosa ottengo componendo una risposta off line; Non ho visto una buona risposta già pubblicata da Andrew. Il mio non fa davvero nulla che il suo non faccia già. Lascio il mio per ora perché fornisce un paio di dettagli in più sullo sviluppo in termini di .β


1
Sembra che ci sia una differenza tra la tua risposta e quella di Andrew. La tua risposta ha la forma corretta del regolarizzatore: , mentre Andrew ha, dove nella regressione lineare, otteniamo . λβ1λ|μ|μ=Xβ
Alex R.

2
@AlexR Penso che tu abbia interpretato male il μ nella risposta di Andrew. Il μ lì corrisponde a un in una regressione con solo un'intercettazione, non a in una regressione multipla; lo stesso argomento segue per il caso più grande (nota i parallelismi con la mia risposta) ma è più facile da seguire nel caso semplice. La risposta di Andrew è essenzialmente giusta ma non collega tutti i punti alla domanda originale, lasciando una piccola quantità per il lettore da compilare. Penso che le nostre risposte siano coerenti (fino ad alcune differenze minori relative a σ che possono essere spiegate) e che meritava pienamente il segno di spuntaβ0Xβ
Glen_b -Reststate Monica,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.