Perché la ridondanza significa che la parametrizzazione accelera Gibbs MCMC?


12

Nel libro di Gelman & Hill (2007) (Data Analysis Using Regression e Multilevel / Hierarchical Models), gli autori affermano che l'inclusione di parametri medi ridondanti può aiutare ad accelerare MCMC.

L'esempio dato è un modello non nidificato di "simulatore di volo" (Eq 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Raccomandano una nuova parametrizzazione, aggiungendo i parametri medi e come segue:μ δμγμδ

γjN(μγ,σγ2)δkN(μδ,σδ2)

L'unica giustificazione offerta è che (p. 420):

È possibile che le simulazioni rimangano bloccate in una configurazione in cui l'intero vettore (o ) è lontano da zero (anche se a loro è assegnata una distribuzione con media 0). Alla fine, le simulazioni convergeranno nella distribuzione corretta, ma non vogliamo aspettare.δγδ

In che modo i parametri medi ridondanti aiutano a risolvere questo problema?

Mi sembra che il modello non nidificato sia lento principalmente a causa di e sono negativamente correlati. (In effetti, se uno sale, l'altro deve scendere, dato che la loro somma è "riparata" dai dati). I parametri medi ridondanti aiutano a ridurre la correlazione tra e o qualcos'altro?δ γ δγδγδ


Stai cercando informazioni intuitive su questo particolare problema (ad es. Se si tratta della correlazione - o delle correlazioni - e - ) o stai cercando informazioni intuitive sul problema generale ( cioè il concetto di centraggio gerarchico)? In quest'ultimo caso, vorresti un'intuizione vicina a una prova o un'intuizione che è molto più libera e mostra più o meno come funziona? δ γ μ δ μγδγμδμ
Sesto Empirico

Vorrei una visione intuitiva del concetto di centraggio gerarchico in generale (poiché il caso particolare nella domanda è direttamente un'applicazione del centraggio gerarchico). Il punto chiave su cui voglio approfondire è: perché la centratura gerarchica funziona se la varianza a livello di gruppo è una parte considerevole della varianza totale ? L'articolo di Gelfand et al. lo dimostra matematicamente (cioè deriva la correlazione e trova il suo comportamento limitante), ma senza alcuna spiegazione intuitiva.
Heisenberg,

Risposte:


4

La correlazione da evitare è quella tra e e .μδ kγjδk

Sostituendo e nel modello computazionale con parametri alternativi su la correlazione viene ridotta.δ k μγjδkμ

Vedere per una descrizione molto chiara la sezione 25.1 "Che cos'è il centraggio gerarchico?" nel libro (liberamente disponibile) "Stima MCMC in MLwiN" di William J. Browne e altri. http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html


La sezione 25.1 della "stima MCMC MlwiN" descrive questa tecnica di "centraggio gerarchico", ma non fornisce ulteriori dettagli oltre a sostenere che funziona. Scavando attraverso i suoi riferimenti, ho scoperto che la prova effettiva di questa tecnica è presentata nell'articolo Parametrizzazioni efficienti per modelli misti lineari normali , di Gelfand et al, Biometrika vol 82 numero 3
Heisenberg

L'articolo di cui sopra a sua volta fa uso delle proprietà della distribuzione normale senza spiegare. Ho trovato prove di tali proprietà nell'analisi coniugale bayesiana della distribuzione gaussiana di Kevin Murphy.
Heisenberg,

Sfortunatamente, non ho ancora visto una spiegazione intuitiva del perché questa tecnica funzioni.
Heisenberg,

È tardi ma penso che questo documento potrebbe essere quello che stai cercando
baruuum
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.