Disclaimer: non ho mai lavorato con questa distribuzione prima. Questa risposta si basa su questo articolo di Wikipedia e sulla mia interpretazione di esso.
La distribuzione di Dirichlet è una distribuzione di probabilità multivariata con proprietà simili alla distribuzione Beta.
Il PDF è definito come segue:
{x1,…,xK}∼1B(α)∏i=1Kxαi−1i
con , e .K≥2xi∈(0,1)∑Ki=1xi=1
Se osserviamo la distribuzione beta strettamente correlata:
{x1,x2(=1−x1)}∼1B(α,β)xα−11xβ−12
possiamo vedere che queste due distribuzioni sono uguali se . Quindi basiamo prima la nostra interpretazione su questo e poi generalizziamo a .K=2K>2
Nelle statistiche bayesiane, la distribuzione Beta viene utilizzata come coniugato prima dei parametri binomiali (Vedi distribuzione Beta ). Il precedente può essere definito come una conoscenza precedente su e (o in linea con la distribuzione di Dirichlet e ). Se qualche prova binomio ha poi successi e fallimenti, la distribuzione a posteriori è quindi la seguente: e . (Non lo risolverò, poiché questa è probabilmente una delle prime cose che impari con le statistiche bayesiane).αβα1α2ABα1,pos=α1+Aα2,pos=α2+B
Quindi la distribuzione Beta rappresenta quindi una distribuzione posteriore su e , che può essere interpretata come la probabilità di successi e insuccessi rispettivamente in una distribuzione binomiale. E più dati ( e ) hai, più stretta sarà questa distribuzione posteriore.x1x2(=1−x1)AB
Ora sappiamo come funziona la distribuzione per , possiamo generalizzarla per funzionare per una distribuzione multinomiale anziché un binomio. Ciò significa che invece di due possibili esiti (successo o fallimento), consentiremo esiti (vedi perché si generalizza a Beta / Binom se ?). Ognuno di questi risultati avrà una probabilità , che si somma a 1 come fanno le probabilità.K=2KK=2Kxi
αi assume quindi un ruolo simile a e nella distribuzione Beta come precedente per e viene aggiornato in modo simile.α1α2xi
Quindi ora per arrivare alle tue domande:
In che modo alphas
influisce sulla distribuzione?
La distribuzione è limitata dalle restrizioni e . Il determinare quali parti del spazio dimensionale ottenere il massimo di massa. Puoi vederlo in questa immagine (non incorporarlo qui perché non possiedo l'immagine). Più dati ci sono nella parte posteriore (usando quell'interpretazione) maggiore è il , quindi più sei sicuro del valore di o delle probabilità per ciascuno dei risultati. Ciò significa che la densità sarà più concentrata.xi∈(0,1)∑Ki=1xi=1αiK∑Ki=1αixi
Come vengono alphas
normalizzati?
La normalizzazione della distribuzione (assicurandosi che l'integrale sia uguale a 1) passa attraverso il termine :B(α)
B(α)=∏Ki=1Γ(αi)Γ(∑Ki=1αi)
Ancora una volta, se osserviamo il caso , possiamo vedere che il fattore di normalizzazione è lo stesso della distribuzione Beta, che utilizzava quanto segue:K=2
B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)
Questo si estende a
B(α)=Γ(α1)Γ(α2)…Γ(αK)Γ(α1+α2+⋯+αK)
Cosa succede quando gli alfa non sono numeri interi?
L'interpretazione non cambia per , ma come puoi vedere nell'immagine che ho collegato prima , se la massa della distribuzione si accumula ai bordi dell'intervallo per . d'altra parte deve essere un numero intero e .αi>1αi<1xiKK≥2