Perché la distribuzione di Dirichlet è la priorità per la distribuzione multinomiale?

36

Nell'algoritmo modello argomento LDA, ho visto questo presupposto. Ma non so perché ho scelto la distribuzione di Dirichlet? Non so se possiamo usare la distribuzione uniforme su Multinomial come coppia?

bayesian dirichlet-distribution conjugate-prior

— ColinBinWang
fonte

5

La distribuzione uniforme è un caso speciale della distribuzione dirichlet.

— Stumpy Joe Pete,

60

La distribuzione di Dirichlet è un coniugato precedente per la distribuzione multinomiale. Ciò significa che se la distribuzione precedente dei parametri multinomiali è Dirichlet, anche la distribuzione posteriore è anche una distribuzione di Dirichlet (con parametri diversi da quelli del precedente). Il vantaggio di ciò è che (a) la distribuzione posteriore è facile da calcolare e (b) in un certo senso è possibile quantificare quanto sono cambiate le nostre convinzioni dopo aver raccolto i dati.

Si può certamente discutere se questi sono buoni motivi per scegliere un particolare precedente, poiché questi criteri non sono correlati alle credenze precedenti reali ... Tuttavia, i priori coniugati sono popolari, poiché spesso sono ragionevolmente flessibili e convenienti da usare per i motivi sopra indicati .

Nel caso speciale della distribuzione multinomiale, sia il vettore dei parametri multinomiali (ovvero le probabilità per le diverse categorie). Se prima di raccogliere i dati, quindi, date osservazioni nelle diverse categorie, $(p_1,\ldots,p_k)$

(p_{1}, \dots, p_{k}) \sim Dirichlet (α_{1}, \dots, α_{k})

$(p_1,\ldots,p_k)\sim \mbox{Dirichlet}(\alpha_1,\ldots,\alpha_k)$

(x_{1}, \dots, x_{k})

$(x_1,\ldots,x_k)$

(p_{1}, \dots, p_{k}) | (x_{1}, \dots, x_{k}) \sim Dirichlet (α_{1} + x_{1}, \dots, α_{k} + x_{k}) .

$(p_1,\ldots,p_k)\Big|(x_1,\ldots,x_k)\sim \mbox{Dirichlet}(\alpha_1+x_1,\ldots,\alpha_k+x_k).$

La distribuzione uniforme è in realtà un caso speciale della distribuzione di Dirichlet, corrispondente al caso . Così è il precedente Jeffreys meno informativo , per il quale . Il fatto che la classe Dirichlet includa questi priori naturali "non informativi" è un altro motivo per usarlo. $\alpha_1=\alpha_2=\cdots=\alpha_k=1$ $\alpha_1=\cdots=\alpha_k=1/2$

— MånsT
fonte

Quindi scegliamo la distribuzione di Dirichlet per questi vantaggi.

— ColinBinWang,

1

+1: potresti voler dire esplicitamente che la probabilità è necessariamente Dirichlet, motivo per cui la distribuzione posteriore è facile da calcolare.

— Neil G,

18

Inoltre, piuttosto che contraddire la risposta di Måns T , sottolineo semplicemente che non esiste "il priore" nella modellistica bayesiana! La distribuzione di Dirichlet è una scelta conveniente a causa di (a) coniugazione, (b) informatica e (c) connessione con statistiche non parametriche (poiché questa è la versione discretizzata del processo di Dirichlet).

Tuttavia, (i) qualunque cosa tu abbia precedentemente inserito sui pesi del multinomiale è una risposta legittima a livello soggettivo di Bayes e (ii) nel caso in cui siano disponibili informazioni precedenti, non vi è alcun motivo per semplificare in una distribuzione di Dirichlet. Si noti inoltre che le miscele e le convoluzioni delle distribuzioni di Dirichlet possono essere utilizzate come priori.

— Xi'an
fonte