Questa è una domanda ricorrente (vedi questo post , questo post e questo post ), ma ho una rotazione diversa.
Supponiamo di avere un sacco di campioni da un campionatore MCMC generico. Per ogni campione , conosco il valore del registro verosimiglianza e del registro prima . Se aiuta, conosco anche il valore della probabilità di log per punto dati, (questa informazione aiuta con alcuni metodi, come WAIC e PSIS-LOO).log f ( x i | θ )
Voglio ottenere una stima (grezza) della probabilità marginale, solo con i campioni che ho, e forse alcune altre valutazioni di funzione (ma senza rieseguire un MCMC ad hoc ).
Prima di tutto, cancelliamo il tavolo. Sappiamo tutti che lo stimatore armonico è il peggior stimatore di sempre . Andiamo avanti. Se stai facendo un campionamento di Gibbs con priori e posteriori in forma chiusa, puoi usare il metodo di Chib ; ma non sono sicuro di come generalizzare al di fuori di questi casi. Esistono anche metodi che richiedono di modificare la procedura di campionamento (ad esempio tramite elementi temperati ), ma qui non mi interessa.
L'approccio a cui sto pensando consiste nell'approssimare la distribuzione sottostante con una forma parametrica (o non parametrica) , e quindi capire la costante di normalizzazione come un problema di ottimizzazione 1-D (cioè la che minimizza alcuni errori tra e , valutato sui campioni). Nel caso più semplice, supponiamo che il posteriore sia approssimativamente multivariato normale, posso adattare come un normale multivariato e ottenere qualcosa di simile a un'approssimazione di Laplace (potrei voler usare alcune valutazioni di funzione aggiuntive per affinare la posizione di il modo). Tuttavia, potrei usare comeZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g (una famiglia più flessibile come una miscela variazionale multivariati distribuzioni.
Apprezzo che questo metodo solo se è un'approssimazione ragionevole di , ma qualsiasi motivo o racconto cautelativo sul perché sarebbe poco saggio fallo? Qualche lettura che consiglieresti?f ( x |
L'approccio completamente non parametrico utilizza alcune famiglie non parametriche, come un processo gaussiano (GP), per approssimare (o qualche altra sua trasformazione non lineare, come come radice quadrata) e quadratura bayesiana per integrarsi implicitamente sul bersaglio sottostante (vedi qui e qui ). Questo sembra essere un approccio alternativo interessante, ma analogo nello spirito (inoltre, nota che i GP non sarebbero ingombranti nel mio caso).