Lazo bayesiano vs lazo ordinario


24

Sono disponibili diversi software di implementazione per il lazo . So molto discusso sull'approccio bayesiano contro l'approccio frequentista in diversi forum. La mia domanda è molto specifica per il lazo: quali sono le differenze o i vantaggi del lazo baaysiano rispetto al lazo normale ?

Ecco due esempi di implementazione nel pacchetto:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Quindi, quando dovrei scegliere uno o altri metodi? O sono uguali?

Risposte:


30

Il lazo standard usa una penalità di regolarizzazione L1 per ottenere la scarsità nella regressione. Si noti che questo è anche noto come Inseguimento di base .

Nel quadro bayesiano, la scelta del regolarizzatore è analoga alla scelta del precedente rispetto ai pesi. Se viene utilizzato un priore gaussiano, la soluzione Maximum a Posteriori (MAP) sarà la stessa di una penalità L2. Sebbene non direttamente equivalente, il precedente di Laplace (che ha un picco nettamente attorno allo zero, a differenza del gaussiano che è liscio intorno allo zero), produce lo stesso effetto di restringimento alla penalità L1. Questo documento descrive il lazo bayesiano. .

Infatti, quando si posiziona un Laplace prima dei parametri, la soluzione MAP dovrebbe essere identica (non semplicemente simile) alla regolarizzazione con la penalità L1 e il Laplace precedente produrrà un identico effetto di restringimento alla penalità L1. Tuttavia, a causa di approssimazioni nella procedura di inferenza bayesiana o di altri problemi numerici, le soluzioni potrebbero non essere identiche.

Nella maggior parte dei casi, i risultati prodotti da entrambi i metodi saranno molto simili. A seconda del metodo di ottimizzazione e dell'utilizzo delle approssimazioni, il lazo standard sarà probabilmente più efficiente da calcolare rispetto alla versione bayesiana. Il bayesiano produce automaticamente stime degli intervalli per tutti i parametri, inclusa la varianza dell'errore, se necessari.


"Se si utilizza un priore gaussiano, la soluzione di massima verosimiglianza sarà la stessa ....". La frase evidenziata dovrebbe leggere "Maximum A Posteriori (MAP)" perché la stima di Maximum Likelihood ignorerà semplicemente la distribuzione precedente sui parametri, portando a una soluzione non regolamentata mentre la stima MAP prende in considerazione il precedente.
mefathy,

1
Quando si posiziona un Laplace prima dei parametri, la soluzione MAP sarà identica (non semplicemente simile) alla regolarizzazione con la penalità L1 e il Laplace precedente produrrà un identico effetto di restringimento alla penalità L1.
mefathy,

@mefathy sì, hai ragione su entrambi i fronti (non posso credere di aver scritto ML invece di MAP ....), anche se ovviamente in pratica YMMV. Ho aggiornato la risposta per incorporare entrambi i commenti.
TD

6

"Minimi quadrati" significa che la soluzione globale riduce al minimo la somma dei quadrati degli errori commessi nei risultati di ogni singola equazione. L'applicazione più importante è nel data fitting. Il miglior adattamento nel senso dei minimi quadrati minimizza la somma dei residui quadrati, un residuo essendo la differenza tra un valore osservato e il valore adattato fornito da un modello. I problemi dei quadrati feriali rientrano in due categorie: minimi quadrati lineari o ordinari e non minimi quadrati lineari, a seconda che i residui siano lineari in tutte le incognite.

La regressione lineare bayesiana è un approccio alla regressione lineare in cui l'analisi statistica viene intrapresa nel contesto dell'inferenza bayesiana. Quando il modello di regressione presenta errori che hanno una distribuzione normale e se si assume una particolare forma di distribuzione precedente, sono disponibili risultati espliciti per le distribuzioni di probabilità posteriori dei parametri del modello.

β2

Una versione alternativa regolarizzata dei minimi quadrati è Lazo (operatore di restringimento e selezione minimi assoluti), che utilizza il vincolo che , la norma L1 del vettore parametro, non è maggiore di un dato valore . In un contesto bayesiano, questo equivale a posizionare una distribuzione di Laplace a media zero sul vettore dei parametri.β1

Una delle principali differenze tra la regressione di Lasso e la cresta è che nella regressione della cresta, quando la penalità viene aumentata, tutti i parametri vengono ridotti rimanendo comunque diversi da zero, mentre in Lasso, aumentando la penalità si determinerà un numero sempre maggiore di parametri portato a zero.

Questo documento confronta il lazo regolare con il lazo bayesiano e la regressione della cresta (vedi figura 1 ).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.