I metodi basati su MCMC sono appropriati quando è disponibile la stima massima a posteriori?


13

Ho notato che in molte applicazioni pratiche, i metodi basati su MCMC vengono utilizzati per stimare un parametro anche se il posteriore è analitico (ad esempio perché i priori erano coniugati). Per me ha più senso usare stimatori MAP piuttosto che stimatori basati su MCMC. Qualcuno potrebbe sottolineare perché MCMC è ancora un metodo appropriato in presenza di un posteriore analitico?


2
Puoi fare un esempio di questo in pratica? Si noti che esiste una differenza rispetto al coniugato precedente e al coniugato condizionale . In molte applicazioni di campionamento di Gibbs, i priori scelti sono coniugati condizionatamente, ma il priore stesso non è coniugato; ad esempio, si consideri Allocazione latente di Dirichlet.
ragazzo,

4
Non è chiaro cosa abbia a che fare anche MAP. Lo stimatore di Bayes è la media posteriore, non la modalità posteriore. Anche quando i priori non sono coniugati, spesso è possibile eseguire alcune ottimizzazioni per ottenere lo stimatore MAP: STAN lo fa per più o meno qualsiasi precedente. Il punto di fare MCMC è stimare la distribuzione posteriore, che ha molte più informazioni di un semplice stimatore MAP.
ragazzo

Risposte:


12

Non è necessario utilizzare MCMC in questo caso: Markov Chain Monte-Carlo (MCMC) è un metodo utilizzato per generare valori da una distribuzione. Produce una catena di Markov di valori auto-correlati con distribuzione stazionaria uguale alla distribuzione target. Questo metodo funzionerà comunque per ottenere ciò che desideri, anche nei casi in cui la distribuzione di destinazione ha una forma analitica. Tuttavia, esistono metodi più semplici e meno intensivi dal punto di vista computazionale che funzionano in casi come questo, in cui si ha a che fare con un posteriore che ha una bella forma analitica.

Nel caso in cui la distribuzione posteriore abbia una forma analitica disponibile, è possibile ottenere stime di parametri (ad es. MAP) ottimizzando da tale distribuzione utilizzando tecniche di calcolo standard. Se la distribuzione del target è sufficientemente semplice, è possibile ottenere una soluzione in forma chiusa per lo stimatore dei parametri, ma anche se non lo è, è possibile utilizzare in genere semplici tecniche iterative (ad es. Newton-Raphson, discesa gradiente, ecc.) Per trovare il ottimizzazione della stima dei parametri per ogni dato di input dato. Se si dispone di una forma analitica per la funzione quantile della distribuzione target e è necessario generare valori dalla distribuzione, è possibile farlo tramite il campionamento inverso della trasformazione, che è meno intensivo dal punto di vista computazionale rispetto a MCMC e consente di generare valori IID anziché valori con schemi di autocorrelazione complessi.

In considerazione di ciò, se si stesse programmando da zero, allora non sembra esserci alcun motivo per utilizzare MCMC nel caso in cui la distribuzione di destinazione abbia una forma analitica disponibile. L'unico motivo per cui potresti farlo è se hai già un algoritmo generico per MCMC, che può essere implementato con il minimo sforzo e decidi che l'efficienza dell'uso del modulo analitico è compensata dallo sforzo di fare la matematica richiesta. In alcuni contesti pratici dovrai affrontare problemi generalmente intrattabili, in cui gli algoritmi MCMC sono già impostati e possono essere implementati con il minimo sforzo (ad esempio, se si esegue l'analisi dei dati inRStan). In questi casi può essere più semplice eseguire i tuoi metodi MCMC esistenti piuttosto che derivare soluzioni analitiche ai problemi, sebbene questi ultimi possano ovviamente essere usati come controllo del tuo lavoro.


10

π(θ)

minδΘL(θ,δ)π~(θ)f(X|θ)dθ
π~()απ()

π~(θ)dθ
X,y(0,1)

fθ(x,y)=1+θ[(1+x)(1+y)3]+θ2(1x)(1y))[1θ(1x)(1y)]3θ(1,1)
inspired by the Ali-Mikhail-Haq copula: it may be properly normalised (and is indeed), but the conditional expectation of Φ-1(X) dato Y=y sotto questa densità, quando Φ(.)è il cdf normale, non è disponibile in forma chiusa. Questa è tuttavia una questione di interesse primario .

Si noti inoltre che lo stimatore massimo a posteriori non è lo stimatore più naturale in un ambiente bayesiano, poiché non corrisponde a una funzione di perdita e che la rappresentazione a forma chiusa della densità, anche fino a una costante, non consente di trovare il MAP necessariamente facile. O usando la MAP rilevante.


2

Mentre la leggo, questa domanda pone due domande in qualche modo ortogonali. Uno dovrebbe usare uno stimatore MAP su mezzi posteriori, e l'altro è se si dovrebbe MCMC se il posteriore ha una forma analitica.

Per quanto riguarda gli stimatori MAP rispetto ai mezzi posteriori, da una prospettiva teorica, i mezzi posteriori sono generalmente preferiti, come osserva @Xian nella sua risposta. Il vero vantaggio degli stimatori MAP è che, specialmente nel caso più tipico in cui il posteriore non è in forma chiusa, possono essere calcolati molto più velocemente (cioè diversi ordini di grandezza) rispetto a una stima della media posteriore. Se il posteriore è approssimativamente simmetrico (come spesso accade in molti problemi con campioni di grandi dimensioni), la stima MAP dovrebbe essere molto vicina alla media posteriore. Quindi l'attrattiva del MAP è in realtà che può essere un'approssimazione molto economica della media posteriore.

Note that knowing the normalizing constant doesn't help us find the posterior mode, so having a closed form solution for the posterior technically doesn't help us find the MAP estimate, outside the case where we recognize the posterior as a specific distribution for which we know it's mode.

In regards to the second question, if one has a closed form the posterior distribution, generally speaking there's no reason to use MCMC algorithms. Theoretically, if you had a closed form solution for the posterior distribution, but didn't have a closed form for the mean of some function and couldn't take draws directly from this closed form distribution, then one might turn to MCMC algorithms. But I'm not aware of any cases of this situation.


1

Direi che i metodi MCMC non sono necessariamente inappropriati , anche quando esistono soluzioni in forma chiusa. Ovviamente, è bello quando esiste una soluzione analitica: di solito sono veloci, si evitano preoccupazioni sulla convergenza (ecc.).

D'altro canto, anche la coerenza è importante. Passare da una tecnica all'altra complica la tua presentazione: nella migliore delle ipotesi, sono i dettagli estranei che possono confondere o distrarre il pubblico dal tuo risultato sostanziale, e nella peggiore delle ipotesi potrebbe sembrare un tentativo di differenziare i risultati. Se avessi diversi modelli, solo alcuni dei quali ammettono soluzioni in formato chiuso, prenderei in seria considerazione la possibilità di eseguirli tutti attraverso la stessa pipeline MCMC anche se non fosse strettamente necessario.

Sospetto questo, più l'inerzia ("abbiamo questo script che funziona") spiega la maggior parte di ciò che stai vedendo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.