simulazione di campioni casuali con un dato MLE


17

Questa domanda con convalida incrociata che chiedeva di simulare un campione subordinato a una somma fissa mi ha ricordato un problema che mi è stato posto da George Casella .

f(x|θ)(X1,,Xn)θ

θ^(x1,,xn)=argmini=1nlogf(xi|θ)
θ θ (X1,...,Xn)(X1,,Xn)θ^(X1,,Xn)

Ad esempio, prendi una distribuzione , con parametro di posizione , la cui densità è If come possiamo simulare base a ? In questo esempio di , la distribuzione di non ha un'espressione in forma chiusa.T5μ

f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(xμ)2/5]3
(X1,,Xn)iidf(x|μ)
(X1,,Xn)μ^(X1,,Xn)=μ0T5μ^(X1,,Xn)

Risposte:


20

Un'opzione sarebbe quella di utilizzare una variante HMC vincolata come descritto in Una famiglia di metodi MCMC su collettori implicitamente definiti di Brubaker et al (1). Ciò richiede che possiamo esprimere la condizione che la stima della massima verosimiglianza del parametro di posizione sia uguale ad alcuni fissi μ0come alcuni vincoli olonomici implicitamente definiti (e differenziabili) c({xi}i=1N)=0 . Possiamo quindi simulare una dinamica hamiltoniana vincolata soggetta a questo vincolo e accettare / rifiutare in una fase di Metropolis-Hastings come in HMC standard.

La probabilità logaritmica negativa è

L=i=1N[logf(xi|μ)]=3i=1N[log(1+(xiμ)25)]+constant
che ha derivati ​​parziali del primo e del secondo ordine rispetto al parametro di localizzazioneμ Una stima della massima verosimiglianza diμ0viene quindi implicitamente definita come una soluzione per c=Ni=1[2(μ0-xi)
Lμ=3i=1N[2(μxi)5+(μxi)2]and2Lμ2=6i=1N[5(μxi)2(5+(μxi)2)2].
μ0
c=i=1N[2(μ0xi)5+(μ0xi)2]=0subject toi=1N[5(μ0xi)2(5+(μ0xi)2)2]>0.

Non sono sicuro che ci siano risultati che suggeriscono che ci sarà un MLE univoco per per dato { x i } N i = 1 - la densità non è concava-log in μ quindi non sembra banale garantirlo. Se esiste un'unica soluzione unica, quanto sopra definisce implicitamente un collettore dimensionale N - 1 collegato incorporato in R N corrispondente all'insieme di { x i } N i = 1 con MLE per μ uguale a μ 0μ{xi}i=1NμN1RN{xi}i=1Nμμ0. Se esistono più soluzioni, il collettore può essere costituito da più componenti non collegati, alcuni dei quali possono corrispondere ai minimi nella funzione di probabilità. In questo caso avremmo bisogno di avere un meccanismo aggiuntivo per spostarci tra i componenti non connessi (poiché la dinamica simulata rimarrà generalmente confinata a un singolo componente) e controllare la condizione del secondo ordine e rifiutare uno spostamento se corrisponde allo spostamento a un minimo nella probabilità.

Se usiamo per indicare il vettore [ x 1x N ] T e introduciamo uno stato di momento coniugato p con matrice di massa M e un moltiplicatore di Lagrange λ per il vincolo scalare c ( x ), allora la soluzione al sistema di ODE d xx[x1xN]TpMλc(x) data condizione inizialex(0)=x0,p(0)=p0conc(x0)=0ec

dxdt=M1p,dpdt=Lxλcxsubject toc(x)=0andcxM1p=0
x(0)=x0, p(0)=p0c(x0)=0, definisce una dinamica hamiltoniana vincolata che rimane confinata alla varietà del vincolo, è reversibile nel tempo e conserva esattamente l'elemento hamiltoniano e l'elemento del volume molteplice. Se utilizziamo un integratore simplettico per sistemi hamiltoniani vincolati come SHAKE (2) o RATTLE (3), che mantengono esattamente il vincolo ad ogni timestep risolvendo il moltiplicatore di Lagrange, possiamo simulare l'esatto dinamico in avantiLtimesteps discretiδtda qualche vincolo iniziale che soddisfax,cx|x0M1p0=0Lδt e accetta la nuova coppia di stati proposta x ,x,px,p with probability
min{1,exp[L(x)L(x)+12pTM1p12pTM1p]}.
If we interleave these dynamics updates with partial / full resampling of the momenta from their Gaussian marginal (restricted to the linear subspace defined by cxM1p=0) then modulo the possiblity of there being multiple non-connected constraint manifold components, the overall MCMC dynamic should be ergodic and the configuration state samples x will coverge in distribution to the target density restricted to the constraint manifold.

To see how constrained HMC performed for the case here I ran the geodesic integrator based constrained HMC implementation described in (4) and available on Github here (full disclosure: I am an author of (4) and owner of the Github repository), which uses a variation of the 'geodesic-BAOAB' integrator scheme proposed in (5) without the stochastic Ornstein-Uhlenbeck step. In my experience this geodesic integration scheme is generally a bit easier to tune than the RATTLE scheme used in (1) due the extra flexibility of using multiple smaller inner steps for the geodesic motion on the constraint manifold. An IPython notebook generating the results is available here.

N=3μ=1μ0=2xμ0 was found by Newton's method (with the second order derivative checked to ensure a maxima of the likelihood was found). I ran a constrained dynamic with δt=0.5, L=5 interleaved with full momentum refreshals for 1000 updates. The plot below shows the resulting traces on the three x components

Trace plots for 3D example

and the corresponding values of the first and second order derivatives of the negative log-likelihood are shown below

Log-likelihood derivative trace plots

from which it can be seen that we are at a maximum of the log-likelihood for all sampled x. Although it is not readily apparent from the individual trace plots, the sampled x lie on a 2D non-linear manifold embedded in R3 - the animation below shows the samples in 3D

3D visualisation of samples confined to 2D manifold

Depending on the interpretation of the constraint it may also be necessary to adjust the target density by some Jacobian factor as described in (4). In particular if we want results consistent with the ϵ0 limit of using an ABC like approach to approximately maintain the constraint by proposing unconstrained moves in RN and accepting if |c(x)|<ϵ, then we need to multiply the target density by cxTcx. In the above example I did not include this adjustment so the samples are from the original target density restricted to the constraint manifold.

References

  1. M. A. Brubaker, M. Salzmann, and R. Urtasun. A family of MCMC methods on implicitly defined manifolds. In Proceedings of the 15th International Conference on Artificial Intelligence and Statistics, 2012.
    http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf

  2. J.-P. Ryckaert, G. Ciccotti, and H. J. Berendsen. Numerical integration of the Cartesian equations of motion of a system with constraints: molecular dynamics of n-alkanes. Journal of Computational Physics, 1977.
    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868

  3. H. C. Andersen. RATTLE: A "velocity" version of the SHAKE algorithm for molecular dynamics calculations. Journal of Computational Physics, 1983.
    http://www.sciencedirect.com/science/article/pii/0021999183900141

  4. M. M. Graham and A. J. Storkey. Asymptotically exact inference in likelihood-free models. arXiv pre-print arXiv:1605.07826v3, 2016.
    https://arxiv.org/abs/1605.07826

  5. B. Leimkuhler and C. Matthews. Efficient molecular dynamics using geodesic integration and solvent–solute splitting. Proc. R. Soc. A. Vol. 472. No. 2189. The Royal Society, 2016.
    http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract


3
Brilliant and opening new and bright perspectives! Thank you.
Xi'an
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.