Calcolo della probabilità marginale da campioni MCMC


24

Questa è una domanda ricorrente (vedi questo post , questo post e questo post ), ma ho una rotazione diversa.

Supponiamo di avere un sacco di campioni da un campionatore MCMC generico. Per ogni campione θ , conosco il valore del registro verosimiglianza logf(x|θ) e del registro prima . Se aiuta, conosco anche il valore della probabilità di log per punto dati, (questa informazione aiuta con alcuni metodi, come WAIC e PSIS-LOO).log f ( x i | θ )logf(θ)logf(xi|θ)

Voglio ottenere una stima (grezza) della probabilità marginale, solo con i campioni che ho, e forse alcune altre valutazioni di funzione (ma senza rieseguire un MCMC ad hoc ).

Prima di tutto, cancelliamo il tavolo. Sappiamo tutti che lo stimatore armonico è il peggior stimatore di sempre . Andiamo avanti. Se stai facendo un campionamento di Gibbs con priori e posteriori in forma chiusa, puoi usare il metodo di Chib ; ma non sono sicuro di come generalizzare al di fuori di questi casi. Esistono anche metodi che richiedono di modificare la procedura di campionamento (ad esempio tramite elementi temperati ), ma qui non mi interessa.

L'approccio a cui sto pensando consiste nell'approssimare la distribuzione sottostante con una forma parametrica (o non parametrica) , e quindi capire la costante di normalizzazione come un problema di ottimizzazione 1-D (cioè la che minimizza alcuni errori tra e , valutato sui campioni). Nel caso più semplice, supponiamo che il posteriore sia approssimativamente multivariato normale, posso adattare come un normale multivariato e ottenere qualcosa di simile a un'approssimazione di Laplace (potrei voler usare alcune valutazioni di funzione aggiuntive per affinare la posizione di il modo). Tuttavia, potrei usare comeZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g (g(θ)ZZZg(θ)f(X|θ)f(θ)g(θ)g(θ)una famiglia più flessibile come una miscela variazionale multivariati distribuzioni.t

Apprezzo che questo metodo solo se è un'approssimazione ragionevole di , ma qualsiasi motivo o racconto cautelativo sul perché sarebbe poco saggio fallo? Qualche lettura che consiglieresti?f ( x |Zg(θ)f(x|θ)f(θ)

L'approccio completamente non parametrico utilizza alcune famiglie non parametriche, come un processo gaussiano (GP), per approssimare (o qualche altra sua trasformazione non lineare, come come radice quadrata) e quadratura bayesiana per integrarsi implicitamente sul bersaglio sottostante (vedi qui e qui ). Questo sembra essere un approccio alternativo interessante, ma analogo nello spirito (inoltre, nota che i GP non sarebbero ingombranti nel mio caso).logf(x|θ)+logf(θ)


6
Penso che Chib, S. e Jeliazkov, I. 2001 "La verosimiglianza marginale dalla metropoli - produzione di Hastings" generalizza alle normali uscite MCMC - sarebbe interessata a sentire esperienze con questo approccio. Per quanto riguarda il GP - fondamentalmente, questo si riduce all'emulazione del posteriore, che potresti considerare anche per altri problemi. Immagino che il problema sia che non sei mai sicuro della qualità dell'approssimazione. Quello che mi chiedo anche è se un campione MCMC è l'ideale per un modello GP o se dovresti investire di più nelle code.
Florian Hartig,

2
(+1) Grazie per il riferimento, sembra perfetto - Lo controllerò. Concordo sul fatto che tutti gli approcci basati su modelli possono essere problematici (la cosa buona con la quadratura bayesiana è che si ottiene una stima dell'incertezza, anche se non si è sicuri di quanto sia calibrata). Per il momento il mio modesto obiettivo è fare qualcosa che sia "migliore di un'approssimazione di Laplace".
Lacerbi,

Risposte:


26

L'estensione di Chib e Jeliazkov (2001) sfortunatamente diventa rapidamente costosa o molto variabile, motivo per cui non è molto usata al di fuori dei casi di campionamento di Gibbs.

Mentre ci sono molti modi e approcci al problema di stima della costante normalizzazione (come illustrato dai discorsi abbastanza diversi nel seminario Costante di stima che abbiamo tenuto la scorsa settimana all'Università di Warwick, diapositive disponibili ), alcune soluzioni sfruttano direttamente l'output MCMC .Z

  1. Come hai detto, lo stimatore della media armonica di Newton e Raftery (1994) è quasi invariabilmente povero per avere una varianza infinita. Tuttavia, ci sono modi per evitare la maledizione della varianza infinita usando invece un bersaglio di supporto finito nell'identità media armonica selezionandoαcome indicatore di una regione HPD per il posteriore. Ciò garantisce una varianza finita rimuovendo le code dalla media armonica. (I dettagli si trovano inun documento che ho scritto con Darren Wraithe in uncapitolo sulla normalizzazione delle costantiscritte con Jean-Michel Marin.) In breve, il metodo ricicla l'output MCMCθ1,,θMidentificandoβ( Il 20% dice) i valori più grandi del targetπ(θ)f(x|θ)e creandoα

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMβπ(θ)f(x|θ)αcome uniforme sopra l'unione delle sfere centrata a quelli più grande densità (HPD) simulazioni e con raggio ρ , cioè la stima della costante di normalizzazione Z è data da Z - 1 = 1θi0ρZ sedè la dimensione diθ(le correzioni si applicano per le palle che si intersecano) e seρè abbastanza piccola da non intersecare mai le palle (il che significa che nella migliore delle ipotesi solo un indicatore è diverso da zero). La spiegazione per ildenominatoreαM2è che questa è una doppia somma diterminiβM2: 1
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    dθραM2βM2 con ogni termine inθm che siintegra conZ-1.
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. Un altro approccio consiste nel trasformare la costante di normalizzazione in un parametro. Sembra un'eresia statistica, ma l'articolo di Guttmann e Hyvärinen (2012) mi ha convinto del contrario. Senza entrare troppo nei dettagli, l'idea chiara in ciò è trasformare la verosimiglianza osservata n i = 1 f ( x i | θ ) - n log exp f ( x | θ ) d x in una verosimiglianza congiunta n i = 1 [ fZ

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    che è la probabilità logaritmica di un processo del punto di Poisson con funzione di intensità exp { f ( x | θ ) + ν + registro n }
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    Questo è un modello alternativo in quanto la probabilità originale non appare come marginale di quanto sopra. Solo le modalità coincidono, con la modalità condizionale in ν che fornisce la costante di normalizzazione. In pratica, la suddetta probabilità del processo di Poisson non è disponibile e Guttmann e Hyvärinen (2012) offrono un'approssimazione mediante una regressione logistica. Per connettersi ancora meglio con la tua domanda, la stima di Geyer è un MLE, quindi una soluzione a un problema di massimizzazione.
  3. π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)). Con i regressori i valori di entrambe le densità, normalizzati o meno. Questo sembra essere direttamente collegato al campionamento dei ponti Gelman e Meng (1997), che ricicla anche campioni da diversi obiettivi. E versioni successive, come MLE di Meng.
  4. Un approccio diverso che obbliga a eseguire un campionatore MCMC specifico è il campionamento nidificato di Skilling . Mentre io [e altri] abbiamo delle riserve sull'efficienza del metodo, è piuttosto popolare in astrostatistica e cosmologia, con software disponibili come multinest .
  5. H0:θ=θ0ξπ1(θ)π2(ξ)H0
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[Ecco una serie di diapositive che ho scritto sulla stima delle costanti di normalizzazione per un seminario NIPS lo scorso dicembre.]


2
(+1) Risposta incredibilmente ricca, grazie. Questo sarà utile per me e, suppongo, molte altre persone. Mi ci vorrà del tempo per dare un'occhiata ai vari approcci, e quindi potrei tornare con domande specifiche.
Lacerbi,

2
A partire dal punto (1) ... ho letto gli articoli pertinenti. Lo stimatore della media armonica "corretta" sembra esattamente quello che stavo cercando. È pulito e facile da calcolare dato un output MCMC. Quindi ... qual è il trucco? Non sembra che il metodo sia ampiamente utilizzato, a giudicare da una rapida ricerca su Google Scholar. Quali sono i suoi limiti? (oltre alla necessità di identificare le regioni HPD, che immagino possano diventare un problema per i posteriori molto complicati in alta dimensione). Ci proverò sicuramente, ma mi chiedo se c'è qualcosa di cui devo stare attento.
Lacerbi,

2
Ho aggiunto qualche dettaglio in più: il problema nell'implementazione dell'uniforme HPD è di capire un'approssimazione compatta adeguata per la regione HPD. Lo scafo convesso di punti con alti valori posteriori è (NP?) Difficile da determinare mentre le sfere centrate in quei punti possono intersecarsi, creando un problema di normalizzazione secondaria secondaria.
Xi'an,

2
@ Xi'an: molto utile, grazie! Posso chiedere: di tutti gli approcci citati, quale sarebbe attualmente la tua raccomandazione se si cerca un approccio generale che tende a funzionare fuori dagli schemi (cioè nessuna messa a punto / controllo richiesto dall'utente)? Sarei particolarmente interessato al caso di modelli con un basso (<50) numero di parametri, posteriori non normali e forti correlazioni tra i parametri.
Florian Hartig,

1
Z
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.