Esiste un approccio bayesiano alla stima della densità


22

Sono interessato a stimare la densità di una vc continua . Un modo per farlo che ho imparato è l'uso della stima della densità del kernel.X

Ma ora sono interessato a un approccio bayesiano che segue le seguenti linee. Inizialmente Credo che segue una distribuzione . Prendo letture di . Esiste un approccio per aggiornare base alle mie nuove letture?XFnXF

So di sembrare in contraddizione con me stesso: se credo esclusivamente in come mia precedente distribuzione, nessun dato dovrebbe convincermi altrimenti. Tuttavia, supponiamo che fosse e che i miei punti dati fossero simili . Vedendo , ovviamente non posso attenermi al mio precedente, ma come devo aggiornarlo?FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

Aggiornamento: sulla base dei suggerimenti nei commenti, ho iniziato a esaminare il processo di Dirichlet. Vorrei usare le seguenti notazioni:

GDP(α,H)θi|GGxi|θiN(θi,σ2)

Dopo aver inquadrato il mio problema originale in questa lingua, immagino di essere interessato a quanto segue: . Come si fa a fare questo?θn+1|x1,...,xn

In questo insieme di note (pagina 2), l'autore ha fatto un esempio di (Polya Urn Scheme). Non sono sicuro che questo sia pertinente.θn+1|θ1,...,θn

Aggiornamento 2: Vorrei anche chiedere (dopo aver visto le note): in che modo le persone scelgono per il DP? Sembra una scelta casuale. Inoltre, come fanno le persone a scegliere una precedente per DP? Dovrei semplicemente usare un precedente per come mio precedente per ?H θ HαHθH


2
"Se credo esclusivamente in F come mia distribuzione precedente, nessun dato dovrebbe convincermi altrimenti." Questa è l'antitesi dell'inferenza bayesiana, che è più sulla falsariga di prendere ciò in cui si crede in una mano e il mondo nell'altra mano, metterli insieme e vedere cosa ne viene fuori. Lavare, risciacquare, ripetere.
Alexis,

Sai qualcosa sul processo Dirichlet?
niandra82,

Ignorando il tuo ultimo paragrafo: ci sono due opzioni comuni a questo problema. Una è una miscela finita di normali (puoi scegliere quante normali in base alla probabilità nella validazione incrociata) o una infinita miscela di normali come suggerisce @niandra82. Questi possono essere fatti con qualcosa come il campionamento di Gibbs o l'inferenza variazionale. Conosci qualcuno di questi metodi?

Dovrei anche chiedere, come intendi usare questo KDE? Il metodo scelto e la dimensione (infinita, finita) potrebbero dipendere dal tuo obiettivo.

Sembra un problema di scelta del modello o filosofico. In realtà, la nostra scelta di quale probabilità usare l'inferenza bayesiana impone anche credenze precedenti ...
Zoë Clark,

Risposte:


2

Dato che desideri un approccio bayesiano, devi assumere alcune conoscenze preliminari sulla cosa che desideri stimare. Questo sarà sotto forma di una distribuzione.

Ora, c'è il problema che questa è ora una distribuzione su distribuzioni. Tuttavia, questo non è un problema se si assume che le distribuzioni candidate provengano da alcune classi di distribuzioni parametrizzate.

Ad esempio, se si desidera presumere che i dati siano gaussiani distribuiti con media sconosciuta ma varianza nota, tutto ciò che serve è un precedente rispetto alla media.

La stima MAP del parametro sconosciuto (chiamalo ) potrebbe procedere ipotizzando che tutti i punti di osservazione / dati siano condizionatamente indipendenti dato il parametro sconosciuto. Quindi, la stima MAP èθ

θ^=argmaxθ(Pr[x1,x2,...,xn,θ]) ,

dove

Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ] .

Va notato che esistono particolari combinazioni della probabilità precedente e delle distribuzioni candidate che generano facili aggiornamenti (in forma chiusa) man mano che vengono ricevuti più punti dati.Pr [ x | θ ]Pr[θ]Pr[x|θ]


1

Ai fini della stima della densità ciò che non è necessario

θn+1|x1,,xn .

La formula in notes riferisce alla distribuzione predittiva del processo Dirichlet.θn+1|θ1,,θn

Per la stima della densità devi effettivamente campionare dalla distribuzione predittiva

π(dxn+1|x1,,xn)

Il campionamento dalla suddetta distribuzione può essere effettuato con metodi condizionali o con metodi marginali. Per i metodi condizionali, dai un'occhiata al documento di Stephen Walker [1]. Per i metodi marginali è necessario consultare il documento Radford Neal [2].

Per il parametro di concnetrazione Mike West [3] propone un metodo di inferenza nella procedura MCMC che include una distribuzione condizionale completa per . Se si decide di non aggiornare la concentrazione nella procedura MCMC, tenere presente che se si sceglie un valore elevato per esso, il numero di valori distinti estratti dal processo Dirichlet sarà maggiore del numero di valori distinti quando verrà utilizzato un piccolo numero per .α α ααααα

[1] SG, Walker (2006). Campionamento del modello di miscela di Dirichlet a fette. Communications in Statitics (Simulazione e calcolo).

[2] RM, Neal (2000) Metodi Markov Chain Monte Carlo per i modelli di miscela di processo di Dirichlet. Giornale di statistica computazionale e grafica. Vol 9, n. 2, pagg. 249-265

[3] M., West (1992). Stima dell'iperparametro nei modelli di miscela di processo di Dirichlet. Rapporto tecnico


-1

Esiste un approccio per aggiornare F in base alle mie nuove letture?

C'è qualcosa proprio per questo. È praticamente l'idea principale dell'inferenza bayesiana.

p(θ|y)p(y|θ)p(θ)

Il è la vostra prima, quello che si chiama . Il è ciò che i bayesiani chiamano "verosimiglianza" ed è la probabilità di osservare i tuoi dati dato un certo valore di theta. Basta semplicemente moltiplicarli insieme e ottenere quella che viene definita una distribuzione "posteriore" di . Questa è la tua "F aggiornata". Dai un'occhiata al capitolo 1 di qualsiasi libro introduttivo su Statistiche bayesiane.F p ( y | θ ) θp(θ)Fp(y|θ)θ

Non devi sbarazzarti di (il tuo precedente), devi solo capire che non è più la tua ipotesi migliore, ora che hai i dati per perfezionarlo.p(θ)


3
Questo non risponde a ciò che la domanda sta ponendo. OP sta chiedendo come si può mettere una prima su quando . Supponendo che il nostro precedente su dia una probabilità alle distribuzioni con una densità, la probabilità è . Quindi dobbiamo costruire un precedente sullo spazio delle funzioni di distribuzione che sono differenziabili (che è dimensione infinita), e OP sta chiedendo come farlo. X 1 , , X n i i d F F L ( F ) = N i = 1 d FFX1,,XniidFFFL(F)=i=1NdFdx|x=xiF
ragazzo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.