Se il LASSO è equivalente alla regressione lineare con un Laplace precedente, come può esserci massa sui set con componenti a zero?


20

loss=yXβ22+λβ1

exp(λβ1)
λ

Consideriamo che dal punto di vista bayesiano possiamo calcolare la probabilità posteriore che, per esempio, le stime dei parametri diverse da zero si trovino in una data raccolta di intervalli e che i parametri impostati su zero dal LASSO siano uguali a zero. Ciò che mi ha confuso è, dato che il precedente di Laplace è continuo (in realtà assolutamente continuo), allora come può esserci una massa su qualsiasi set che è un prodotto di intervalli e singoli in ?{0}


8
Cosa ti fa pensare che il posteriore non sia anche un pdf continuo? Il fatto che il massimo del posteriore si presenti in un punto che ha molti componenti 0 non significa da solo che il posteriore non è un pdf continuo.
Brian Borchers,

Il posteriore è un PDF continuo. Visto come stima della massima probabilità vincolata, se immaginiamo ripetute estrazioni dalla stessa distribuzione dei dati quando il modello reale ha zeri con coefficienti di regressione multipli e la costante di ottimizzazione è abbastanza grande, il CMLE avrà sempre gli stessi componenti impostati su zero e il non- i parametri zero si spargeranno nei corrispondenti intervalli di confidenza. Dal punto di vista bayesiano questo equivale ad avere una probabilità positiva per tali insiemi. La mia domanda è: come può essere così per una distribuzione continua.
Concedi Izmirlian il

2
La soluzione CLME coincide con la stima MAP. Non c'è davvero altro da dire.
Sycorax dice Reinstate Monica il

3
La soluzione CMLE non è un campione dal posteriore.
Brian Borchers,

2
Non c'è contraddizione perché il posteriore non mette la massa su insiemi di dimensione inferiore.
Xi'an,

Risposte:


7

Come tutti i commenti sopra, l'interpretazione bayesiana di LASSO non sta prendendo il valore atteso della distribuzione posteriore, che è quello che vorresti fare se fossi un purista. Se così fosse, allora avresti ragione che ci sono poche possibilità che il posteriore sia zero dati dati.

In realtà, l'interpretazione bayesiana di LASSO sta prendendo lo stimatore MAP (Maximum A Posteriori) del posteriore. Sembra che tu abbia familiarità, ma per chiunque non lo sia, si tratta sostanzialmente della Bayesian Maximum Likelihood, in cui usi il valore che corrisponde alla massima probabilità di occorrenza (o modalità) come stimatore per i parametri in LASSO. Poiché la distribuzione aumenta esponenzialmente fino a zero dalla direzione negativa e diminuisce esponenzialmente nella direzione positiva, a meno che i dati non suggeriscano fortemente che la beta sia un altro valore significativo, è probabile che il valore massimo del valore del tuo posteriore sia 0.

Per farla breve, la tua intuizione sembra essere basata sulla media del posteriore, ma l'interpretazione bayesiana di LASSO si basa sul prendere la modalità del posteriore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.