Sto cercando di capire il funzionamento interiore dell'Hamiltoniano Monte Carlo (HMC), ma non riesco a comprendere appieno la parte quando sostituiamo la deterministica integrazione temporale con una proposta di metropoli. Sto leggendo il fantastico documento introduttivo A Conceptual Introduction to Hamiltonian Monte Carlo di Michael Betancourt, quindi seguirò la stessa notazione ivi usata.
sfondo
L'obiettivo generale di Markov Chain Monte Carlo (MCMC) è approssimare la distribuzione di una variabile target .q
L'idea di HMC è quella di introdurre una variabile "momentum" ausiliaria , in combinazione con la variabile originale modellata come "posizione". La coppia posizione-momento forma uno spazio di fase esteso e può essere descritto dalla dinamica hamiltoniana. La distribuzione congiunta può essere scritta in termini di decomposizione microcanonica:q
,
dove rappresenta i parametri su un dato livello di energia , noto anche come un insieme tipico . Vedere la Figura 21 e la Figura 22 della carta per l'illustrazione. ( q , p ) E
La procedura HMC originale consiste nelle seguenti due fasi alternate:
Un passaggio stocastico che esegue una transizione casuale tra i livelli di energia e
Una fase deterministica che esegue l'integrazione temporale (di solito implementata tramite l'integrazione numerica leapfrog) lungo un determinato livello di energia.
Nel documento, si sostiene che leapfrog (o integratore simplettico) ha piccoli errori che introdurranno pregiudizi numerici. Quindi, invece di trattarlo come un passo deterministico, dovremmo trasformarlo in una proposta di Metropolis-Hasting (MH) per rendere questo passo stocastico e la procedura risultante produrrà campioni esatti dalla distribuzione.
La proposta di MH eseguirà passaggi di operazioni di cavalcare le rane e poi ribalterà lo slancio. La proposta verrà quindi accettata con la seguente probabilità di accettazione:
Domande
Le mie domande sono:
1) Perché questa modifica della trasformazione dell'integrazione temporale deterministica in proposta MH annulla il bias numerico in modo che i campioni generati seguano esattamente la distribuzione target?
2) Dal punto di vista della fisica, l'energia viene conservata a un determinato livello di energia. Ecco perché siamo in grado di usare le equazioni di Hamilton:
.
In questo senso, l'energia dovrebbe essere costante ovunque sull'insieme tipico, quindi dovrebbe essere uguale a . Perché c'è una differenza di energia che ci consente di costruire la probabilità di accettazione?H ( q L , - p L )