LASSO e cresta dal punto di vista bayesiano: che dire del parametro tuning?


17

Stimatori di regressione penalizzati come LASSO e cresta corrispondono a stimatori bayesiani con alcuni priori. Immagino (dato che non conosco abbastanza le statistiche bayesiane) che per un parametro di accordatura fisso esiste un precedente corrispondente concreto.

Ora un frequentista ottimizzerebbe il parametro di ottimizzazione mediante validazione incrociata. Esiste un equivalente bayesiano nel farlo, ed è usato affatto? Oppure l'approccio bayesiano corregge efficacemente il parametro tuning prima di vedere i dati? (Immagino che quest'ultimo sarebbe dannoso per le prestazioni predittive.)


3
Immagino che un approccio completamente bayesiano inizierebbe con un dato precedente e non lo modifichi, sì. Ma esiste anche un approccio empirico-bayes che ottimizza rispetto ai valori dell'iperparametro: ad es. Vedi stats.stackexchange.com/questions/24799 .
ameba dice Reinstate Monica il

Domanda aggiuntiva (potrebbe far parte della domanda principale): esistono alcuni parametri precedenti sulla regolarizzazione che in qualche modo sostituiscono il processo di convalida incrociata?
kjetil b halvorsen,

1
I bayesiani possono mettere un precedente al parametro tuning, poiché di solito corrisponde a un parametro varianza. Questo è di solito ciò che viene fatto per evitare CV per rimanere completamente Bayes. In alternativa, è possibile utilizzare REML per ottimizzare il parametro di regolarizzazione.
ragazzo

2
PS: a coloro che mirano alla generosità, nota il mio commento: voglio vedere una risposta esplicita che mostri un precedente che induca una stima MAP equivalente alla validazione incrociata frequentista.
statslearner2

1
@ statslearner2 Penso che risponda molto bene alla domanda di Richard. La tua taglia sembra essere focalizzata su un aspetto più ristretto (di un iperprior) rispetto a quello di Richard D.
ameba dice Reinstate Monica il

Risposte:


18

Stimatori di regressione penalizzati come LASSO e cresta corrispondono a stimatori bayesiani con alcuni priori.

Si, è corretto. Ogni volta che abbiamo un problema di ottimizzazione che coinvolge la massimizzazione della funzione log-verosimiglianza più una funzione di penalità sui parametri, questo è matematicamente equivalente alla massimizzazione posteriore in cui la funzione di penalità è considerata il logaritmo di un kernel precedente. Per vedere questo, supponiamo di avere una funzione di penalità w usando un parametro di sintonia λ . La funzione oggettiva in questi casi può essere scritta come:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

dove usiamo il precedente π(θ|λ)exp(w(θ|λ)) . Si noti qui che il parametro di ottimizzazione nell'ottimizzazione viene trattato come un iperparametro fisso nella distribuzione precedente. Se si sta eseguendo un'ottimizzazione classica con un parametro di ottimizzazione fisso, ciò equivale a eseguire un'ottimizzazione bayesiana con un iperparametro fisso. Per la regressione di LASSO e Ridge le funzioni di penalità e i corrispondenti equivalenti precedenti sono:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

Il primo metodo penalizza i coefficienti di regressione in base alla loro grandezza assoluta, che è l'equivalente dell'imposizione di un Laplace precedente situato a zero. Quest'ultimo metodo penalizza i coefficienti di regressione in base alla loro grandezza quadrata, che equivale a imporre un normale normale situato a zero.

Ora un frequentista ottimizzerebbe il parametro di ottimizzazione mediante validazione incrociata. Esiste un equivalente bayesiano nel farlo, ed è usato affatto?

Finché il metodo frequentista può essere posto come un problema di ottimizzazione (piuttosto che dire, incluso un test di ipotesi, o qualcosa del genere) ci sarà un'analogia bayesiana usando un precedente equivalente. Proprio come i frequentatori possono trattare il parametro di sintonizzazione λ come sconosciuto e stimarlo dai dati, il bayesiano può allo stesso modo trattare l'iperparametro λ come sconosciuto. In un'analisi bayesiana completa ciò implicherebbe dare all'iperparametro il proprio priore e trovare il massimo posteriore sotto questo priore, che sarebbe analogo a massimizzare la seguente funzione oggettiva:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

Questo metodo è effettivamente utilizzato nell'analisi bayesiana nei casi in cui l'analista non si sente a proprio agio nel scegliere un iperparametro specifico per il loro precedente e cerca di rendere il precedente più diffuso trattandolo come sconosciuto e dandogli una distribuzione. (Si noti che questo è solo un modo implicito di dare un più diffuso prima del parametro di interesse θ .)

(Commento da statslearner2 di seguito) Sto cercando stime MAP numeriche equivalenti. Ad esempio, per un Ridge a penalità fissa c'è un priore gaussiano che mi darà la stima MAP esattamente uguale alla stima della cresta. Ora, per la cresta CV di k-fold, qual è l'iperpreciso che mi darebbe la stima MAP che è simile alla stima della cresta CV?

Prima di procedere con la validazione incrociata di K -fold, vale la pena notare che, matematicamente, il metodo massimo a posteriori (MAP) è semplicemente un'ottimizzazione di una funzione del parametro θ e dei dati x . Se si è disposti a consentire priori impropri, l'ambito incapsula qualsiasi problema di ottimizzazione che coinvolge una funzione di queste variabili. Pertanto, qualsiasi metodo frequentista che può essere inquadrato come un singolo problema di ottimizzazione di questo tipo ha un'analogia MAP, e qualsiasi metodo frequentista che non può essere inquadrato come un'unica ottimizzazione di questo tipo non ha un'analogia MAP.

Nella suddetta forma di modello, che coinvolge una funzione di penalità con un parametro di ottimizzazione, viene comunemente utilizzata la convalida incrociata K per stimare il parametro di sintonizzazione λ . Per questo metodo di partizionare il vettore di dati x in K sub-vettori x1,...,xK . Per ciascuno dei sub-vettore k=1,...,K si adatta il modello con i dati "training" xk e quindi si misura l'adattamento del modello con i dati "testing" xk. In ogni accoppiamento si ottiene uno stimatore per i parametri del modello, che quindi fornisce previsioni dei dati di test, che possono quindi essere confrontati con i dati di test effettivi per dare una misura di "perdita":

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

The loss measures for each of the K "folds" can then be aggregated to get an overall loss measure for the cross-validation:

L(x,λ)=kLk(x^k,xk|xk,λ)

One then estimates the tuning parameter by minimising the overall loss measure:

λ^λ^(x)arg min λL(x,λ).

We can see that this is an optimisation problem, and so we now have two seperate optimisation problems (i.e., the one described in the sections above for θ, and the one described here for λ). Since the latter optimisation does not involve θ, we can combine these optimisations into a single problem, with some technicalities that I discuss below. To do this, consider the optimisation problem with objective function:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

where δ>0 is a weighting value on the tuning-loss. As δ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ= screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.

From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.


2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2

4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy

3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy

1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy

2
@Ben (ctd) My problem is that I know little about Bayes. Once it gets technical, I may easily lose the perspective. So I wonder whether this complicated analogy (the last formula) is something that is just a technical possibility or rather something that people routinely use. In other words, I am interested in whether the idea behind cross validation (here in the context of penalized estimation) is resounding in the Bayesian world, whether its advantages are utilized there. Perhaps this could be a separate question, but a short description will suffice for this particular case.
Richard Hardy,

6

In effetti, i metodi di regressione più penalizzati corrispondono al posizionamento di un tipo particolare di prima dei coefficienti di regressione. Ad esempio, ottieni LASSO usando un precedente Laplace e la cresta usando un precedente normale. I parametri di ottimizzazione sono gli "iperparametri" nella formulazione bayesiana per i quali è possibile posizionare un ulteriore prima di stimarli; per esempio, poiché nel caso della cresta si presume spesso che la varianza inversa della distribuzione normale abbia aχ2precedente. Tuttavia, come ci si aspetterebbe, le inferenze risultanti possono essere sensibili alla scelta delle distribuzioni precedenti per questi iperparametri. Ad esempio, per il ferro di cavallo precedente ci sono alcuni risultati teorici che si dovrebbe posizionare un tale precedente per gli iperparametri che rifletterebbe il numero di coefficienti diversi da zero che ci si aspetta di avere.

Una bella panoramica dei legami tra regressione penalizzata e priori bayesiani è fornita, ad esempio, da Mallick e Yi .


Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy

2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.