Che cos'è esattamente l'alfa nella distribuzione di Dirichlet?


26

Sono abbastanza nuovo nelle statistiche bayesiane e mi sono imbattuto in una misura di correlazione corretta, SparCC , che utilizza il processo Dirichlet nel backend del suo algoritmo. Ho provato ad analizzare l'algoritmo passo dopo passo per capire davvero cosa sta succedendo, ma non sono sicuro di cosa alphafaccia esattamente il parametro vettoriale in una distribuzione di Dirichlet e come normalizzi il alphaparametro vettoriale?

L'implementazione è in Pythonuso NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

I documenti dicono:

alpha: array Parametro della distribuzione (dimensione k per campione di dimensione k).

Le mie domande:

  1. In che modo alphasinfluisce sulla distribuzione ?;

  2. Come vengono alphasnormalizzati ?; e

  3. Cosa succede quando alphasnon sono numeri interi?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

inserisci qui la descrizione dell'immagine


6
Hai problemi con la voce di Wikipedia su questa distribuzione ?
Xi'an,

2
Mi scuso, non credo di averlo scritto correttamente. Capisco cos'è una distribuzione di probabilità / pdf / pmf ma ero confuso su come stava avvenendo la normalizzazione. Da Wikipedia, sembra che la normalizzazione si stia verificando tramite le funzioni gamma dopo il . L'ho sentito dire come una distribuzione su distribuzioni ed è difficile vederlo dagli eqns su Wikipedia. xiα1
O.rka,

1
Se normalizzi gli alfa, otterrai la media della distribuzione. Se normalizzi la distribuzione, assicuri che il suo integrale sul suo supporto sia uguale a 1 e che sia quindi una distribuzione di probabilità valida.
Eskapp,

1
La distribuzione di Dirichlet è una distribuzione sul simplex, quindi una distribuzione su distribuzioni di supporto finite. Se miri a una distribuzione su distribuzioni continue, dovresti esaminare il processo di Dirichlet.
Xi'an,

Risposte:


67

La distribuzione di Dirichlet è una distribuzione di probabilità multivariata che descrive le variabili , in modo tale che ogni e , che è parametrizzato da un vettore di parametri a valore positivo . I parametri non devono essere numeri interi, devono solo essere numeri reali positivi. Non sono in alcun modo "normalizzati", sono parametri di questa distribuzione.X 1 , , X k x i( 0 , 1 ) N i = 1 x i = 1k2X1,,Xkxi(0,1)i=1Nxi=1α=(α1,,αk)

La distribuzione di Dirichlet è una generalizzazione della distribuzione beta in più dimensioni, quindi puoi iniziare imparando a conoscere la distribuzione beta. Beta è una distribuzione univariata di una variabile casuale parametrizzata dai parametri e . La buona intuizione al riguardo viene se ricordi che è un coniugato precedente per la distribuzione binomiale e se assumiamo un precedente beta parametrizzato da e per il parametro di probabilità della distribuzione binomiale , allora anche la distribuzione posteriore di è un distribuzione beta parametrizzata daX(0,1)αβαβppα=α+number of successes e . Quindi puoi pensare a e come a pseudocount (non devono essere numeri interi) di successi e insuccessi (controlla anche questo thread ).β=β+number of failuresαβ

Nel caso della distribuzione di Dirichlet, è un coniugato precedente per la distribuzione multinomiale . Se nel caso della distribuzione binomiale possiamo pensarci in termini di disegno di palline bianche e nere con sostituzione dall'urna, quindi nel caso della distribuzione multinomiale stiamo disegnando con palline di sostituzione che appaiono in colori, dove ciascuno dei colori delle palle può essere disegnato con probabilità . La distribuzione di Dirichlet è un coniugato precedente per le probabilità e i parametri possono essere pensati come pseudocount di sfere di ogni colore assunto a prioriNkp1,,pkp1,,pkα1,,αk(ma dovresti leggere anche le insidie ​​di tale ragionamento ). Nel modello multinomiale di Dirichlet vengono aggiornati sommandoli con i conteggi osservati in ciascuna categoria: in modo simile come nel caso del modello beta-binomiale.α1,,αkα1+n1,,αk+nk

Il valore più alto di , il "peso" maggiore di e la quantità maggiore della "massa" totale gli viene assegnata (ricorda che in totale deve essere ). Se tutti sono uguali, la distribuzione è simmetrica. Se , può essere pensato come anti-peso che allontana verso gli estremi, mentre quando è alto attira verso un valore centrale (centrale nel senso che tutti i punti sono concentrati attorno ad esso, non nel sentire che è simmetricamente centrale). Se , i punti vengono distribuiti uniformemente.αiXix1++xk=1αiαi<1xixiα1==αk=1

Questo può essere visto nei grafici seguenti, dove puoi vedere banali distribuzioni di Dirichlet (sfortunatamente possiamo produrre grafici ragionevoli solo fino a tre dimensioni) parametrizzati da (a) , (b) , (c) , (d) .α1=α2=α3=1α1=α2=α3=10α1=1,α2=10,α3=5α1=α2=α3=0.2

Quattro diversi campioni dalle distribuzioni di Dirichlet

La distribuzione di Dirichlet è talvolta chiamata "distribuzione su distribuzioni" , dal momento che può essere pensata come una distribuzione delle probabilità stesse. Si noti che poiché ogni e , allora sono coerenti con il primo e il secondo assioma della probabilità . Quindi puoi usare la distribuzione di Dirichlet come distribuzione di probabilità per eventi discreti descritti da distribuzioni come categoriali o multinomiali . E ' non èxi(0,1)i=1kxi=1xivero che si tratta di una distribuzione su qualsiasi distribuzione, ad esempio non è correlata alle probabilità di variabili casuali continue, o anche alcune discrete (ad esempio una variabile casuale distribuita di Poisson descrive le probabilità di osservare valori che sono numeri naturali, quindi per usare un Distribuzione di Dirichlet sulle loro probabilità, avresti bisogno di un numero infinito di variabili casuali ).k


2
Spiegazione incredibile
O.rka,

14

Disclaimer: non ho mai lavorato con questa distribuzione prima. Questa risposta si basa su questo articolo di Wikipedia e sulla mia interpretazione di esso.


La distribuzione di Dirichlet è una distribuzione di probabilità multivariata con proprietà simili alla distribuzione Beta.

Il PDF è definito come segue:

{x1,,xK}1B(α)i=1Kxiαi1

con , e .K2xi(0,1)i=1Kxi=1

Se osserviamo la distribuzione beta strettamente correlata:

{x1,x2(=1x1)}1B(α,β)x1α1x2β1

possiamo vedere che queste due distribuzioni sono uguali se . Quindi basiamo prima la nostra interpretazione su questo e poi generalizziamo a .K=2K>2


Nelle statistiche bayesiane, la distribuzione Beta viene utilizzata come coniugato prima dei parametri binomiali (Vedi distribuzione Beta ). Il precedente può essere definito come una conoscenza precedente su e (o in linea con la distribuzione di Dirichlet e ). Se qualche prova binomio ha poi successi e fallimenti, la distribuzione a posteriori è quindi la seguente: e . (Non lo risolverò, poiché questa è probabilmente una delle prime cose che impari con le statistiche bayesiane).αβα1α2ABα1,pos=α1+Aα2,pos=α2+B

Quindi la distribuzione Beta rappresenta quindi una distribuzione posteriore su e , che può essere interpretata come la probabilità di successi e insuccessi rispettivamente in una distribuzione binomiale. E più dati ( e ) hai, più stretta sarà questa distribuzione posteriore.x1x2(=1x1)AB


Ora sappiamo come funziona la distribuzione per , possiamo generalizzarla per funzionare per una distribuzione multinomiale anziché un binomio. Ciò significa che invece di due possibili esiti (successo o fallimento), consentiremo esiti (vedi perché si generalizza a Beta / Binom se ?). Ognuno di questi risultati avrà una probabilità , che si somma a 1 come fanno le probabilità.K=2KK=2Kxi

αi assume quindi un ruolo simile a e nella distribuzione Beta come precedente per e viene aggiornato in modo simile.α1α2xi

Quindi ora per arrivare alle tue domande:

In che modo alphasinfluisce sulla distribuzione?

La distribuzione è limitata dalle restrizioni e . Il determinare quali parti del spazio dimensionale ottenere il massimo di massa. Puoi vederlo in questa immagine (non incorporarlo qui perché non possiedo l'immagine). Più dati ci sono nella parte posteriore (usando quell'interpretazione) maggiore è il , quindi più sei sicuro del valore di o delle probabilità per ciascuno dei risultati. Ciò significa che la densità sarà più concentrata.xi(0,1)i=1Kxi=1αiKi=1Kαixi

Come vengono alphasnormalizzati?

La normalizzazione della distribuzione (assicurandosi che l'integrale sia uguale a 1) passa attraverso il termine :B(α)

B(α)=i=1KΓ(αi)Γ(i=1Kαi)

Ancora una volta, se osserviamo il caso , possiamo vedere che il fattore di normalizzazione è lo stesso della distribuzione Beta, che utilizzava quanto segue:K=2

B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)

Questo si estende a

B(α)=Γ(α1)Γ(α2)Γ(αK)Γ(α1+α2++αK)

Cosa succede quando gli alfa non sono numeri interi?

L'interpretazione non cambia per , ma come puoi vedere nell'immagine che ho collegato prima , se la massa della distribuzione si accumula ai bordi dell'intervallo per . d'altra parte deve essere un numero intero e .αi>1αi<1xiKK2


1
Grazie per questo. La tua spiegazione è stata super utile. Vorrei poter averli contrassegnati entrambi come corretti.
O.rka,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.