Perché è necessario MCMC quando si stima un parametro usando MAP


11

Data la formula per la stima MAP di un parametro Stima dei parametri MAP Perché è necessario un approccio MCMC (o simile), non posso semplicemente prendere la derivata, impostarla su zero e quindi risolvere il parametro?


Ottima domanda!

Risposte:


4

Se sai da quale famiglia proviene il tuo posteriore e se trovare la derivata di quella distribuzione è analiticamente fattibile, è corretto.

Tuttavia, quando usi MCMC, probabilmente non ti troverai in quel tipo di situazione. MCMC è concepito per situazioni in cui non hai una chiara nozione analitica di come appare il tuo posteriore.


3
Penso che questo sia leggermente fuorviante: MCMC in genere non viene utilizzato per trovare lo stimatore MAP (al di fuori di casi speciali come un algoritmo MCEM).
Cliff AB,

1
In linea di principio non sono in disaccordo con te. Ma MCMC può essere ed è utilizzato per simulare la distribuzione posteriore . E una volta che lo hai fatto, puoi sicuramente trovare la modalità di quella distribuzione, nota anche come MAP. Qual è, credo, ciò che l'OP aveva in mente, quindi non sono del tutto sicuro del perché la mia risposta sarebbe fuorviante.
Christoph Hanck,

Sì, tuttavia, MCMC è il metodo preferito quando si ha a che fare con MAP se non esiste un modo analitico per ottimizzare il parametro?
Dänu,

3
Non ho mai sentito parlare dell'utilizzo di MCMC semplice per trovare la modalità di distribuzione posteriore (tecnicamente, si potrebbe fare, ma questo è estremamente inefficiente). Dato che in genere possiamo valutare una funzione proporzionale alla distribuzione posteriore, massimizzare ciò equivarrà a massimizzare la distribuzione posteriore. Gli ottimizzatori out-of-the-box funzioneranno altrettanto bene su questo come su qualsiasi problema di probabilità frequentista (vale a dire, a volte dovrai specializzarli).
Cliff AB,

@Dänu Probabilmente non vuoi usare MCMC (per essere pedante, una catena di Markov) per trovare i massimi. Un algoritmo di ottimizzazione dovrebbe funzionare meglio.
Jtobin,

10

La maggior parte dei posteriori si rivela difficile da ottimizzare analiticamente (cioè prendendo un gradiente e impostandolo uguale a zero), e per fare MAP dovrete ricorrere ad un algoritmo di ottimizzazione numerica.

A parte: MCMC non è correlato a MAP.

MAP - per massimo a posteriori - si riferisce alla ricerca di un massimo locale di qualcosa di proporzionale a una densità posteriore e all'utilizzo dei valori dei parametri corrispondenti come stime. È definito come

θ^MAP=argmaxθp(θ|D)

L'MCMC viene in genere utilizzato per approssimare le aspettative su qualcosa di proporzionale a una densità di probabilità. Nel caso di un posteriore, questo è

θ^MCMC=n1i=1nθi0Θθp(θ|D)dθ

{θio0}io=1nθ^MUNPθ^MCMC

Il punto cruciale è che MAP comporta l' ottimizzazione , mentre MCMC si basa sul campionamento .


Affermate che i posteriori si dimostrano difficili da ottimizzare analiticamente, come nel caso di MAP. Quindi MAP è possibile solo se il posteriore può essere ottimizzato analiticamente e in caso contrario si deve ricorrere (ad esempio) a un approccio MCMC?
Dänu,

2
No, invece di venire con la soluzione analitica, si può usare un algoritmo iterativo per trovare la soluzione (cioè se il registro posteriore è concavo, è possibile usare il Metodo di Newton, per esempio).
Cliff AB,

2
MAP si riferisce alla ricerca di valori di parametro che (localmente) massimizzano un posteriore. Non importa come si ottengono quei valori dei parametri: risoluzione analitica dei massimi, utilizzo di una routine numerica, differenziazione automatica, ecc.
jtobin
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.