Laplace smoothing e Dirichlet precedenti


11

Sul articolo wikipedia di Laplace smoothing (o lisciatura additivo), si dice che da un punto di vista Bayesiano,

questo corrisponde al valore atteso della distribuzione posteriore, usando una distribuzione di Dirichlet simmetrica con il parametro come precedente.α

Sono perplesso su come sia effettivamente vero. Qualcuno potrebbe aiutarmi a capire come queste due cose sono equivalenti?

Grazie!

Risposte:


10

Sicuro. Questa è essenzialmente l'osservazione che la distribuzione di Dirichlet è un coniugato precedente alla distribuzione multinomiale. Ciò significa che hanno la stessa forma funzionale. L'articolo lo menziona, ma sottolineerò solo che ciò deriva dal modello di campionamento multinomiale. Quindi, arrivando ad esso ...

L'osservazione riguarda il posteriore, quindi introduciamo alcuni dati, , che sono conteggi di elementi distinti. Osserviamo campioni totali. Supponiamo che sia tratto da una distribuzione sconosciuta (sulla quale metteremo un prima del -simplex).K N = K i = 1 x i x π D i r ( α ) KxKN=i=1KxixπDir(α)K

La probabilità posteriore di data e data èα xπαx

p(π|x,α)=p(x|π)p(π|α)

La probabilità, , è la distribuzione multinomiale. Ora scriviamo i pdf:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

e

p(π|α)=1B(α)i=1Kπiα1

dove . Moltiplicando, troviamo che,B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

In altre parole, il posteriore è anche Dirichlet. La domanda riguardava la media posteriore. Poiché il posteriore è Dirichlet, possiamo applicare la formula per la media di un Dirichlet per scoprire che,

E[πi|α,x]=xi+αN+Kα.

Spero che questo ti aiuti!


p(π|α,x)=p(x|π)p(π|α)/p(x|α), quindi non è sbagliato dire cheSono proporzionali rispetto a , ma penso che non sia vero scrivere un'uguaglianza. p(π|α,x)=p(x|π)p(π|α)?π
michal,

Ne ero confuso da molto tempo e voglio condividere la mia realizzazione. Queste persone che motivano il livellamento di Laplace di Dirichlet usano la media posteriore, non la MAP. Per semplicità, supponi la distribuzione Beta (il caso più semplice di Dirichlet) La media posteriore è mentre la MAP è . Quindi, se qualcuno dice corrisponde all'aggiunta di 1 al numeratore e 2 al denominatore, è perché stanno usando la media posteriore. α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy,

0

Come nota a margine, vorrei anche aggiungere un altro punto alla derivazione di cui sopra, che non riguarda realmente la domanda principale. Tuttavia, parlando dei priori di Dirichlet sulla distribuzione multinomiale, ho pensato che valesse la pena menzionare che quale sarebbe la forma della funzione di probabilità se prendiamo le probabilità come variabili di disturbo.

Come correttamente sottolineato da Sydeulissie, è proporzionale a . Ora qui vorrei calcolare .p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

Usando un'identità integrale per le funzioni gamma, abbiamo:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

La suddetta derivazione della probabilità di dati categoriali propone un modo più solido di trattare questi dati nei casi in cui la dimensione del campione non è abbastanza grande.N

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.