Perché abbiamo bisogno di tracciare traccia per i risultati MCMC


12

Sto leggendo articoli di ricerca usando i metodi MCMC e vedo che la maggior parte di essi fornisce tracciati. Perché abbiamo bisogno di tracciati nella catena Monte Carlo Markov? Cosa indica un tracciato di parametri?

Risposte:


17

Si creano i diagrammi di traccia dei parametri per assicurarsi che la distribuzione a priori sia ben calibrata, il che è indicato dai parametri con sufficienti cambiamenti di stato durante l'esecuzione dell'algoritmo MCMC.

Un esempio estremo è che si imposta la varianza della distribuzione a priori su 0. Quindi la stima del parametro posteriore non cambierà mai. Il tuo algoritmo direbbe che hai la migliore stima dei parametri, ma non ha verificato un numero sufficiente di parametri per determinare se questa è davvero la soluzione migliore. Se si imposta la varianza della distribuzione a priori su un valore troppo alto, si ottiene un problema simile. Questo perché il nuovo parametro ha meno probabilità di essere correlato ai tuoi dati, quindi la probabilità di log calcolata con il tuo nuovo parametro non è probabilmente migliore della probabilità di log che utilizza il vecchio parametro. (Un esempio è se il parametro "vero" è 0,5 e la stima iniziale è 2, ma stai selezionando da una distribuzione normale con una media di 2 e una varianza di 10.000, è improbabile che tu ottenga un parametro più vicino a 1 .

Devi selezionare una varianza a priori che consenta ai tuoi stati di parametro di cambiare abbastanza da non rimanere bloccati sui minimi e sui massimi locali nella distribuzione della licenza, ma abbastanza bene da ottenere stime ragionevoli dei parametri. La maggior parte della letteratura suggerisce che i tuoi parametri cambino stato 40-60% delle volte.

Un altro motivo per i grafici di tracciamento è il burn in. Di solito il periodo di burn in è evidente nel grafico (ad esempio, se il parametro vero è 1.5 e la stima iniziale è 4, si dovrebbero vedere le stime dei parametri che si spostano rapidamente da 4 a 1.5 e poi "rimbalzare" intorno all'1,5). In genere, è sufficiente escludere le prime n iterazioni in cui n è sufficientemente grande da essere certi di aver rimosso la masterizzazione (diciamo 1000), ma se i calcoli richiedono molto tempo o se le stime dei parametri impiegano molto più tempo a convergere rispetto a n consente quindi di omettere più o meno osservazioni per tenere conto del burn in. È possibile controllare i grafici per vedere dove termina il periodo di burn in per assicurarsi che il burn in non influisca sui risultati.

Si noti che ho parlato nel contesto delle stime dei punti dei parametri. Se si sta valutando la varianza dei parametri, è ancora più importante assicurarsi di avere cambiamenti di stato appropriati.


5
+1 Ma l'altro lato è che non ci fidiamo totalmente della diagnostica formale di convergenza e vogliamo vedere qualcosa prima di affermare che è convergente. Se questo è del tutto razionale è un'altra domanda ...
conjugateprior,

1
Mi dispiace scavare questo vecchio post. Ma il valore precedente (generato dalla distribuzione precedente) non dovrebbe essere irrilevante fintanto che esiste un numero sufficiente di iterazioni?
mscnvrsy,

@mscnvrsy: puoi mettere un precedente non informativo come il precedente o l'uniforme di Jeffry se vuoi fornire meno informazioni al tuo precedente.
Benzamina,

3
Non sono completamente d'accordo con l'idea che i grafici di traccia MCMC siano in qualche modo correlati alla calibrazione di una distribuzione precedente. Un algoritmo MCMC mira a una data distribuzione posteriore, irrilevante per la scelta del precedente, e in condizioni adeguate crea una catena di Markov che converge a questa distribuzione stazionaria. Osservare i tracciati è utile solo per valutare la convergenza o la mancanza della catena Markov.
Xi'an,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.