Esempi di errori negli algoritmi MCMC


28

Sto studiando un metodo per il controllo automatico dei metodi Monte Carlo della catena Markov e vorrei alcuni esempi di errori che possono verificarsi durante la costruzione o l'implementazione di tali algoritmi. Punti bonus se è stato utilizzato il metodo errato in un documento pubblicato.

Sono particolarmente interessato ai casi in cui l'errore significa che la catena ha una distribuzione invariante errata, sebbene anche altri tipi di errori (ad esempio catena non ergodica) possano interessare.

Un esempio di tale errore non riuscirebbe a produrre un valore quando Metropolis-Hastings rifiuta una mossa proposta.


7
Uno dei miei esempi preferiti è lo stimatore della media armonica perché ha belle proprietà asintotiche ma non funziona in pratica. Radford Neal ne discute nel suo blog: "La cattiva notizia è che il numero di punti richiesti affinché questo stimatore si avvicini alla risposta giusta sarà spesso maggiore del numero di atomi nell'universo osservabile". Questo metodo è stato ampiamente implementato nelle applicazioni.

3
Un altro per gentile concessione del Prof. Neal.
Ciano,

5
@Cyan Perché Neal sia preso sul serio, penso che avrebbe dovuto trovare un diario che avrebbe accettato il suo articolo piuttosto che inviarlo su Internet. Posso facilmente credere che abbia ragione e che gli arbitri e l'autore non siano corretti. Sebbene sia difficile pubblicare articoli che contraddicano i risultati pubblicati e il rifiuto di JASA è scoraggiante, penso che avrebbe dovuto provare diverse altre riviste fino a quando non ci fosse riuscito. Hai bisogno di un arbitro parziale e indipendente per aggiungere credibilità ai tuoi risultati.
Michael R. Chernick,

4
Bisogna sempre prendere sul serio il Prof. Neal! ; o) Scherzi a parte, è un peccato che risultati come questo siano difficili da pubblicare, e sfortunatamente la cultura accademica moderna non sembra valorizzare quel genere di cose, quindi è comprensibile se per lui non è un'attività prioritaria. Domanda interessante, sono molto interessato alle risposte.
Dikran Marsupial,

6
@Michael: Forse. Essendo stato da tutte le parti di situazioni simili, anche nella posizione del Prof. Neal, in molte occasioni, le mie osservazioni aneddotiche sono che il rifiuto della carta porta molto, molto poco contenuto informativo nella maggior parte dei casi, così come molte accettazioni. La revisione paritaria è ordini di grandezza più rumorosi di quanto le persone si ammettano di ammettere e, spesso, come può essere il caso qui, ci sono parti e interessi parziali e interessati (cioè non indipendenti) in gioco. Detto questo, non intendevo che il mio commento originale ci portasse così lontano dall'argomento in questione. grazie condividendo le tue opinioni sull'argomento.
cardinale il

Risposte:


11

1. Stima del margine marginale e stimatore della media armonica

La probabilità marginale è definita come la costante normalizzante della distribuzione posteriore

p(X)=Θp(X|θ)p(θ)dθ.

L'importanza di questa quantità deriva dal ruolo che svolge nel confronto tra modelli attraverso i fattori di Bayes .

Sono stati proposti diversi metodi per approssimare questa quantità. Raftery et al. (2007) propongono lo stimatore medio armonico , che divenne rapidamente popolare grazie alla sua semplicità. L'idea consiste nell'utilizzare la relazione

1p(X)=Θp(θ|X)p(X|θ)dθ.

Pertanto, se abbiamo un campione dal posteriore, diciamo , questa quantità può essere approssimata da(θ1,...,θN)

1p(X)1NΣj=1N1p(X|θj).

Questa approssimazione è collegata al concetto di campionamento dell'importanza .

Secondo la legge dei grandi numeri, come discusso nel blog di Neal , abbiamo che questo stimatore è coerente . Il problema è che la richiesta per una buona approssimazione può essere enorme. Vedi il blog di Neal o il blog di Robert 1 , 2 , 3 , 4 per alcuni esempi.N

alternative

Esistono molte alternative per approssimare . Chopin e Robert (2008) presentano alcuni metodi basati sul campionamento Importance.p(X)

2. Non eseguire il campionatore MCMC abbastanza a lungo (specialmente in presenza di multimodalità)

Mendoza e Gutierrez-Peña (1999) deducono il riferimento anteriore / posteriore per il rapporto di due mezzi normali e presentano un esempio delle inferenze ottenute con questo modello usando un set di dati reali. Usando i metodi MCMC, ottengono un campione di dimensione del posteriore del rapporto dei mezzi φ che è mostrato sotto2000φ

inserisci qui la descrizione dell'immagine

E ottenere l'intervallo HPD per ( 0.63 , 5.29 ) . Dopo un'analisi dell'espressione della distribuzione posteriore, è facile vedere che ha una singolarità a 0 e che la parte posteriore dovrebbe effettivamente apparire così (notare la singolarità a 0 )φ (0.63,5.29)00

inserisci qui la descrizione dell'immagine

(0,7.25)

3. Altre questioni come la valutazione della convergenza, la scelta dei valori di partenza, il cattivo comportamento della catena possono essere trovate in questa discussione di Gelman, Carlin e Neal.

4. Campionamento dell'importanza

g

io=f(X)dX=f(X)g(X)g(X)dX.

g(X1,...,XN)io

io1NΣj=1Nf(Xj)g(Xj).

gfN

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

2
Sono alcuni grandi esempi. Per chiunque sia interessato, la lettera all'editore con la figura è qui: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract
Simon Byrne,

2
Riepilogo molto bello e chiaro !! (+1)
gui11aume

12

Darren Wilkinson sul suo blog fornisce un esempio dettagliato di un errore comune nella passeggiata casuale Metropolis-Hastings. Consiglio di leggerlo per intero, ma ecco la versione tl; dr.

Se la distribuzione target è positiva (come le distribuzioni Gamma ecc. ) In una dimensione, è allettante rifiutare immediatamente le proposte che hanno un valore negativo su quella dimensione. L'errore è di eliminare le proposte come se non fossero mai successe e valutare il rapporto di accettazione di Metropolis-Hastings (MH) solo delle altre. Questo è un errore perché equivale a utilizzare una densità di proposta non simmetrica.

L'autore suggerisce di applicare una delle due correzioni.

  1. Conta i "negativi" come mancata accettazione (e perdi un po 'di efficienza).

  2. Utilizzare il rapporto MH corretto in quel caso, che è

π(X*)π(X)Φ(X)Φ(X*),

πΦφ Φ(X)=0φ(y-X)dy


1
+1 Esempio interessante. Stavo anche pensando ad altri problemi con MH relativi al tasso di accettazione. Penso che il tasso ottimale di 0,234 sia stato abusato.

@Procrastinator conosci molto bene la letteratura MCMC. È questo il tuo dominio di competenza?
gui11aume,

Grazie per il tuo commento. Mi piacciono le statistiche bayesiane, quindi devo portare la croce MCMC;).

1

Un caso molto chiaro (collegato all'approssimazione della probabilità marginale menzionata nella prima risposta) in cui la vera convergenza è l'esempio del problema del cambio di etichetta nei modelli di miscele accoppiato con l'uso dello stimatore di Chib (1995) . Come sottolineato da Radford Neal (1999), se la catena MCMC non converge correttamente, nel senso che esplora alcune delle modalità della distribuzione target, l'approssimazione di Monte Carlo di Chib non riesce a raggiungere il giusto valore numerico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.