Un'opzione sarebbe quella di utilizzare una variante HMC vincolata come descritto in Una famiglia di metodi MCMC su collettori implicitamente definiti di Brubaker et al (1). Ciò richiede che possiamo esprimere la condizione che la stima della massima verosimiglianza del parametro di posizione sia uguale ad alcuni fissi μ0come alcuni vincoli olonomici implicitamente definiti (e differenziabili) c({xi}Ni=1)=0 . Possiamo quindi simulare una dinamica hamiltoniana vincolata soggetta a questo vincolo e accettare / rifiutare in una fase di Metropolis-Hastings come in HMC standard.
La probabilità logaritmica negativa è
L=−∑i=1N[logf(xi|μ)]=3∑i=1N[log(1+(xi−μ)25)]+constant
che ha derivati parziali del primo e del secondo ordine rispetto al parametro di localizzazione
μ
Una stima della massima verosimiglianza di
μ0viene quindi implicitamente definita come una soluzione per
c=N∑i=1[2(μ0-xi)∂L∂μ=3∑i=1N[2(μ−xi)5+(μ−xi)2]and∂2L∂μ2=6∑i=1N[5−(μ−xi)2(5+(μ−xi)2)2].
μ0c=∑i=1N[2(μ0−xi)5+(μ0−xi)2]=0subject to∑i=1N[5−(μ0−xi)2(5+(μ0−xi)2)2]>0.
Non sono sicuro che ci siano risultati che suggeriscono che ci sarà un MLE univoco per per dato { x i } N i = 1 - la densità non è concava-log in μ quindi non sembra banale garantirlo. Se esiste un'unica soluzione unica, quanto sopra definisce implicitamente un collettore dimensionale N - 1 collegato incorporato in R N corrispondente all'insieme di { x i } N i = 1 con MLE per μ uguale a μ 0μ{xi}Ni=1μN−1RN{xi}Ni=1μμ0. Se esistono più soluzioni, il collettore può essere costituito da più componenti non collegati, alcuni dei quali possono corrispondere ai minimi nella funzione di probabilità. In questo caso avremmo bisogno di avere un meccanismo aggiuntivo per spostarci tra i componenti non connessi (poiché la dinamica simulata rimarrà generalmente confinata a un singolo componente) e controllare la condizione del secondo ordine e rifiutare uno spostamento se corrisponde allo spostamento a un minimo nella probabilità.
Se usiamo per indicare il vettore [ x 1 … x N ] T e introduciamo uno stato di momento coniugato p con matrice di massa M e un moltiplicatore di Lagrange λ per il vincolo scalare c ( x ), allora la soluzione al sistema di ODE
d xx[x1…xN]TpMλc(x)
data condizione inizialex(0)=x0,p(0)=p0conc(x0)=0e ∂ c
dxdt=M−1p,dpdt=−∂L∂x−λ∂c∂xsubject toc(x)=0and∂c∂xM−1p=0
x(0)=x0, p(0)=p0c(x0)=0, definisce una dinamica hamiltoniana vincolata che rimane confinata alla varietà del vincolo, è reversibile nel tempo e conserva esattamente l'elemento hamiltoniano e l'elemento del volume molteplice. Se utilizziamo un integratore simplettico per sistemi hamiltoniani vincolati come SHAKE (2) o RATTLE (3), che mantengono esattamente il vincolo ad ogni timestep risolvendo il moltiplicatore di Lagrange, possiamo simulare l'esatto dinamico in avanti
Ltimesteps discreti
δtda qualche vincolo iniziale che soddisfa
x,∂c∂x∣∣x0M−1p0=0Lδt e accetta la nuova coppia di stati proposta
x ′ ,x,px′,p′ with probability
min{1,exp[L(x)−L(x′)+12pTM−1p−12p′TM−1p′]}.
If we interleave these dynamics updates with partial / full resampling of the momenta from their Gaussian marginal (restricted to the linear subspace defined by
∂c∂xM−1p=0) then modulo the possiblity of there being multiple non-connected constraint manifold components, the overall MCMC dynamic should be ergodic and the configuration state samples
x will coverge in distribution to the target density restricted to the constraint manifold.
To see how constrained HMC performed for the case here I ran the geodesic integrator based constrained HMC implementation described in (4) and available on Github here (full disclosure: I am an author of (4) and owner of the Github repository), which uses a variation of the 'geodesic-BAOAB' integrator scheme proposed in (5) without the stochastic Ornstein-Uhlenbeck step. In my experience this geodesic integration scheme is generally a bit easier to tune than the RATTLE scheme used in (1) due the extra flexibility of using multiple smaller inner steps for the geodesic motion on the constraint manifold. An IPython notebook generating the results is available here.
N=3μ=1μ0=2xμ0 was found by Newton's method (with the second order derivative checked to ensure a maxima of the likelihood was found). I ran a constrained dynamic with δt=0.5, L=5 interleaved with full momentum refreshals for 1000 updates. The plot below shows the resulting traces on the three x components
and the corresponding values of the first and second order derivatives of the negative log-likelihood are shown below
from which it can be seen that we are at a maximum of the log-likelihood for all sampled x. Although it is not readily apparent from the individual trace plots, the sampled x lie on a 2D non-linear manifold embedded in R3 - the animation below shows the samples in 3D
Depending on the interpretation of the constraint it may also be necessary to adjust the target density by some Jacobian factor as described in (4). In particular if we want results consistent with the ϵ→0 limit of using an ABC like approach to approximately maintain the constraint by proposing unconstrained moves in RN and accepting if |c(x)|<ϵ, then we need to multiply the target density by ∂c∂xT∂c∂x−−−−−−√. In the above example I did not include this adjustment so the samples are from the original target density restricted to the constraint manifold.
References
M. A. Brubaker, M. Salzmann, and R. Urtasun. A family of MCMC methods on implicitly defined manifolds. In Proceedings of the 15th International Conference on Artificial Intelligence and Statistics, 2012.
http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf
J.-P. Ryckaert, G. Ciccotti, and H. J. Berendsen.
Numerical integration of the Cartesian equations of motion of a system with constraints: molecular dynamics of n-alkanes. Journal of Computational
Physics, 1977.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868
H. C. Andersen. RATTLE: A "velocity" version of the SHAKE algorithm for molecular dynamics calculations. Journal of Computational Physics, 1983.
http://www.sciencedirect.com/science/article/pii/0021999183900141
M. M. Graham and A. J. Storkey. Asymptotically exact inference in likelihood-free models. arXiv pre-print arXiv:1605.07826v3, 2016.
https://arxiv.org/abs/1605.07826
B. Leimkuhler and C. Matthews. Efficient molecular dynamics using geodesic integration and solvent–solute splitting. Proc. R. Soc. A. Vol. 472. No. 2189. The Royal Society, 2016.
http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract