Campionamento da una distribuzione impropria (usando MCMC e altro)


15

La mia domanda di base è: come campioneresti da una distribuzione impropria? Ha anche senso campionare da una distribuzione impropria?

Il commento di Xi'an qui affronta in qualche modo la domanda, ma stavo cercando qualche dettaglio in più su questo.

Più specifico per MCMC:

Parlando di MCMC e leggendo articoli, gli autori sottolineano di aver ottenuto distribuzioni posteriori adeguate. C'è il famoso articolo di Geyer (1992) in cui l'autore ha dimenticato di verificare se il suo posteriore era corretto (altrimenti un eccellente documento).

Ma supponiamo che a abbiamo una probabilità e una distribuzione precedente impropria su tale che anche il posteriore risultante sia improprio e MCMC viene usato per campionare dalla distribuzione. In questo caso, cosa indica il campione? Ci sono informazioni utili in questo esempio? Sono consapevole che la catena Markov qui è quindi transitoria o nulla ricorrente. Ci sono dei take-away positivi se è null-ricorrente ?f(x|θ)θ

Infine, nella risposta di Neil G qui , menziona quella

in genere puoi campionare (usando MCMC) dalla parte posteriore anche se non è corretto.

Dice che tale campionamento è comune nell'apprendimento profondo. Se questo è vero, che senso ha?


1
Questo jstor.org/stable/pdf/2246228.pdf?_=1462943547901 può essere interessante
peuhp,

@peuhp Sicuramente utile. Quello che ho capito dalla carta è che se i funzionali da valutare dai campioni sono integrabili, allora il campionamento da un posteriore improprio ha senso. La mia interpretazione è corretta?
Greenparker,

3
Sì. Prendi in considerazione un caso banale di un posteriore improprio, in cui l'improprietà è dovuta a code grasse e una funzione uguale a zero al di fuori di e ha tutte le belle proprietà per integrabilità su [ 0 , 1 ] . Il fatto che il posteriore sia improprio è irrilevante poiché l'unica parte del posteriore che conta è la parte sopra [ 0 , 1 ] . [0,1][0,1][0,1]
jbowman,

Risposte:


10

Campionamento da un posteriore impropria (densità) non ha senso da un punto probabilistica / di vista teorico. La ragione di ciò è che la funzione f non ha un integrale finito sullo spazio dei parametri e, di conseguenza, non può essere collegata a un modello di probabilità ( misura finita) ( Ω , σ , P ) (spazio, sigma-algebra, misura della probabilità ).ff(Ω,σ,P)

Se si dispone di un modello con un precedente improprio che porta a un posteriore improprio, in molti casi è ancora possibile campionarlo utilizzando MCMC, ad esempio Metropolis-Hastings, e i "campioni posteriori" possono sembrare ragionevoli. A prima vista sembra affascinante e paradossale. Tuttavia, la ragione di ciò è che i metodi MCMC sono limitati ai limiti numerici dei computer in pratica, e quindi, tutti i supporti sono limitati (e discreti!) Per un computer. Quindi, in base a tali restrizioni (limitatezza e discrezione) il posteriore è effettivamente corretto nella maggior parte dei casi.

C'è un grande riferimento di Hobert e Casella che presenta un esempio (di natura leggermente diversa) in cui è possibile costruire un campionatore Gibbs per un posteriore, i campioni posteriori sembrano perfettamente ragionevoli, ma il posteriore è improprio!

http://www.jstor.org/stable/2291572

Un esempio simile è recentemente apparso qui . In effetti, Hobert e Casella avvertono il lettore che i metodi MCMC non possono essere utilizzati per rilevare la scorrettezza del posteriore e che questo deve essere verificato separatamente prima di implementare qualsiasi metodo MCMC. In sintesi:

  1. Alcuni campionatori MCMC, come Metropolis-Hastings, possono (ma non dovrebbero) essere utilizzati per campionare da un posteriore improprio poiché il computer limita e divulga lo spazio dei parametri. Solo se si dispone di enormi campioni, si potrebbe essere in grado di osservare alcune cose strane. La capacità di rilevare questi problemi dipende anche dalla distribuzione "strumentale" utilizzata nel campionatore. Quest'ultimo punto richiede una discussione più ampia, quindi preferisco lasciarlo qui.
  2. (Hobert e Casella). Il fatto che sia possibile costruire un campionatore di Gibbs (modello condizionale) per un modello con un precedente improprio non implica che il posteriore (modello comune) sia corretto.
  3. Un'interpretazione probabilistica formale dei campioni posteriori richiede la proprietà del posteriore. I risultati e le prove di convergenza sono stabiliti solo per le opportune distribuzioni / misure di probabilità.

PS (un po 'di lingua sulla guancia): non sempre credere a ciò che le persone fanno in Machine Learning. Come ha affermato il prof. Brian Ripley: "l'apprendimento automatico è una statistica meno qualsiasi verifica di modelli e ipotesi".


(+1) Ottima risposta e concorda con la maggior parte di ciò che stavo pensando. Leggerò il riferimento Hobert + Casella. Ti capita di sapere se qualcosa di meglio può succedere se la catena di Markov è nulla ricorrente? Inoltre, concorda con l'osservazione PS.
Greenparker,

@Greenparker Le catene di Markov ricorrenti nulle non hanno distribuzione fissa. Quindi, sono inutili nel contesto di MCMC (dove costruisci catene di Markov con distribuzione stazionaria uguale alla distribuzione target), vedi ad esempio qui e qui .
Rod,

5

Dare una visione alternativa, più applicata, dall'eccellente risposta di Rod sopra -

+/10100

1/xprecedente - uno che uso per il calcolo, che non ha un limite superiore, e la "caratteristica extra" di esso dove è uguale a zero sopra la popolazione di San Francisco ... ", con la" caratteristica extra "applicata in un passaggio successivo alla generazione del campione. Il vero precedente non è quello utilizzato nel calcolo MCMC (nel mio esempio.)

Quindi, in linea di principio, sarei abbastanza d'accordo con l'uso di un campione generato da MCMC da una distribuzione impropria nel lavoro applicato, ma presterei molta attenzione a come è avvenuta quell'improprietà e come il campione casuale ne sarà influenzato . Idealmente, il campione casuale non ne risentirebbe, come nel mio esempio di hot dog, in cui in un mondo ragionevole non si genererebbe mai un numero casuale maggiore del numero di persone a San Francisco ...

Dovresti anche essere consapevole del fatto che i tuoi risultati potrebbero essere abbastanza sensibili alla caratteristica del posteriore che lo ha reso improprio, anche se in seguito lo tronchi in un numero elevato (o qualsiasi modifica sia appropriata per il tuo modello. ) Vorresti che i tuoi risultati fossero robusti a lievi modifiche che spostano il posteriore da improprio a corretto. Questo può essere più difficile da garantire, ma fa tutto parte del problema più grande di assicurarsi che i risultati siano solidi per le tue ipotesi, in particolare quelli che sono fatti per comodità.


+1, tattica interessante. Potresti anche fornire il troncamento come tuo vero prior. Immagino che quando si fa mcmc questo potrebbe non banjax troppi dei tuoi calcoli, ed eviterei la necessità di discutere l'uso di un'approssimazione.
congetture del

@conjectures - certamente, in questo caso! Questo era solo un semplice esempio, inteso a illustrare il punto che a) potrebbe esserci una differenza tra il precedente utilizzato nel calcolo MCMC e il precedente effettivo, b) la differenza può essere risolta post-elaborazione del campione MCMC (a un ragionevole grado di "risoluzione") ec) l'improprietà dei risultati rispetto al precedente utilizzato nel calcolo MCMC non implica improprietà dei risultati dopo che è stata effettuata la post-elaborazione.
jbowman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.