Stimatori di regressione penalizzati come LASSO e cresta corrispondono a stimatori bayesiani con alcuni priori.
Si, è corretto. Ogni volta che abbiamo un problema di ottimizzazione che coinvolge la massimizzazione della funzione log-verosimiglianza più una funzione di penalità sui parametri, questo è matematicamente equivalente alla massimizzazione posteriore in cui la funzione di penalità è considerata il logaritmo di un kernel precedente. † Per vedere questo, supponiamo di avere una funzione di penalità w usando un parametro di sintonia λ . La funzione oggettiva in questi casi può essere scritta come:†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
dove usiamo il precedente π(θ|λ)∝exp(−w(θ|λ)) . Si noti qui che il parametro di ottimizzazione nell'ottimizzazione viene trattato come un iperparametro fisso nella distribuzione precedente. Se si sta eseguendo un'ottimizzazione classica con un parametro di ottimizzazione fisso, ciò equivale a eseguire un'ottimizzazione bayesiana con un iperparametro fisso. Per la regressione di LASSO e Ridge le funzioni di penalità e i corrispondenti equivalenti precedenti sono:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
Il primo metodo penalizza i coefficienti di regressione in base alla loro grandezza assoluta, che è l'equivalente dell'imposizione di un Laplace precedente situato a zero. Quest'ultimo metodo penalizza i coefficienti di regressione in base alla loro grandezza quadrata, che equivale a imporre un normale normale situato a zero.
Ora un frequentista ottimizzerebbe il parametro di ottimizzazione mediante validazione incrociata. Esiste un equivalente bayesiano nel farlo, ed è usato affatto?
Finché il metodo frequentista può essere posto come un problema di ottimizzazione (piuttosto che dire, incluso un test di ipotesi, o qualcosa del genere) ci sarà un'analogia bayesiana usando un precedente equivalente. Proprio come i frequentatori possono trattare il parametro di sintonizzazione λ come sconosciuto e stimarlo dai dati, il bayesiano può allo stesso modo trattare l'iperparametro λ come sconosciuto. In un'analisi bayesiana completa ciò implicherebbe dare all'iperparametro il proprio priore e trovare il massimo posteriore sotto questo priore, che sarebbe analogo a massimizzare la seguente funzione oggettiva:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
Questo metodo è effettivamente utilizzato nell'analisi bayesiana nei casi in cui l'analista non si sente a proprio agio nel scegliere un iperparametro specifico per il loro precedente e cerca di rendere il precedente più diffuso trattandolo come sconosciuto e dandogli una distribuzione. (Si noti che questo è solo un modo implicito di dare un più diffuso prima del parametro di interesse θ .)
(Commento da statslearner2 di seguito) Sto cercando stime MAP numeriche equivalenti. Ad esempio, per un Ridge a penalità fissa c'è un priore gaussiano che mi darà la stima MAP esattamente uguale alla stima della cresta. Ora, per la cresta CV di k-fold, qual è l'iperpreciso che mi darebbe la stima MAP che è simile alla stima della cresta CV?
Prima di procedere con la validazione incrociata di K -fold, vale la pena notare che, matematicamente, il metodo massimo a posteriori (MAP) è semplicemente un'ottimizzazione di una funzione del parametro θ e dei dati x . Se si è disposti a consentire priori impropri, l'ambito incapsula qualsiasi problema di ottimizzazione che coinvolge una funzione di queste variabili. Pertanto, qualsiasi metodo frequentista che può essere inquadrato come un singolo problema di ottimizzazione di questo tipo ha un'analogia MAP, e qualsiasi metodo frequentista che non può essere inquadrato come un'unica ottimizzazione di questo tipo non ha un'analogia MAP.
Nella suddetta forma di modello, che coinvolge una funzione di penalità con un parametro di ottimizzazione, viene comunemente utilizzata la convalida incrociata K per stimare il parametro di sintonizzazione λ . Per questo metodo di partizionare il vettore di dati x in K sub-vettori x1,...,xK . Per ciascuno dei sub-vettore k=1,...,K si adatta il modello con i dati "training" x−k e quindi si misura l'adattamento del modello con i dati "testing" xk. In ogni accoppiamento si ottiene uno stimatore per i parametri del modello, che quindi fornisce previsioni dei dati di test, che possono quindi essere confrontati con i dati di test effettivi per dare una misura di "perdita":
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
The loss measures for each of the K "folds" can then be aggregated to get an overall loss measure for the cross-validation:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
One then estimates the tuning parameter by minimising the overall loss measure:
λ^≡λ^(x)≡arg min λL(x,λ).
We can see that this is an optimisation problem, and so we now have two seperate optimisation problems (i.e., the one described in the sections above for θ, and the one described here for λ). Since the latter optimisation does not involve θ, we can combine these optimisations into a single problem, with some technicalities that I discuss below. To do this, consider the optimisation problem with objective function:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
where δ>0 is a weighting value on the tuning-loss. As δ→∞ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ=∞ screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.