Da dove viene la distribuzione beta?


13

Come sono sicuro che tutti qui già sanno, il PDF della distribuzione Beta XB(a,b) è dato da

f(x)=1B(a,b)xa1(1x)b1

Ho cercato dappertutto una spiegazione delle origini di questa formula, ma non riesco a trovarla. Ogni articolo che ho trovato sulla distribuzione Beta sembra dare questa formula, illustrarne alcune delle sue forme, quindi continuare a discutere i suoi momenti e continuare da lì.

Non mi piace usare formule matematiche che non posso derivare e spiegare. Per altre distribuzioni (ad esempio la gamma o il binomio) c'è una chiara derivazione che posso imparare e usare. Ma non riesco a trovare nulla del genere per la distribuzione Beta.

Quindi la mia domanda è: quali sono le origini di questa formula? Come può essere derivato dai primi principi in qualunque contesto sia stato originariamente sviluppato?

[Per chiarire, non sto chiedendo come utilizzare la distribuzione Beta nelle statistiche bayesiane, o cosa significhi intuitivamente in pratica (ho letto l'esempio del baseball). Voglio solo sapere come derivare il PDF. C'era una domanda precedente che aveva posto qualcosa di simile, ma era stata contrassegnata (penso in modo errato) come un duplicato di un'altra domanda che non ha risolto il problema, quindi finora non sono stato in grado di trovare alcun aiuto.]

EDIT 2017-05-06: Grazie a tutti per le domande. Penso che una buona spiegazione di ciò che voglio venga da una delle risposte che ho ricevuto quando ho chiesto questo ad alcuni dei miei istruttori del corso:

"Immagino che le persone potrebbero derivare la densità normale come limite di una somma di n cose divisa per sqrt (n), e puoi derivare la densità di poisson dall'idea di eventi che si verificano a un ritmo costante. Allo stesso modo, al fine di derivare il densità beta, dovresti avere una sorta di idea di ciò che rende qualcosa una distribuzione beta indipendentemente e, logicamente, dalla densità ".

Quindi l'idea "ab initio" nei commenti è probabilmente più vicina a ciò che sto cercando. Non sono un matematico, ma mi sento a mio agio nell'usare la matematica che posso derivare. Se le origini sono troppo avanzate per essere gestite, così sia, ma in caso contrario mi piacerebbe capirle.


5
Derivato da cosa? Se l'approccio binomiale-coniugato-precedente non è accettabile, qui ci sono diverse alternative (ad es. Statistiche dell'ordine di una variabile casuale uniforme, proporzioni di variabili gamma).
GeoMatt22,

3
Nota: l'intera storia della distribuzione Beta è fornita nell'incredibile pagina di Wikipedia su questa distribuzione, che contiene circa ogni possibile dettaglio!
Xi'an,

1
La domanda precedente è stata contrassegnata come duplicata dell'altra dopo che il PO ha chiarito cosa stavano cercando in un commento. whuber ha posto qui la stessa domanda che fa @ Geomatt22: "Una derivazione significa una connessione logica da qualcosa assunto a qualcosa da stabilire. Che cosa vuoi assumere ?"
Scortchi - Ripristina Monica

2
@Aksakal ma poi la domanda è troppo ampia: potrebbe essere derivata in tutti i modi; se hai ragione, io chiudo come troppo ampia fino a quando la questione si restringe verso il basso abbastanza per essere qualcosa di diverso da un sacchetto della gru a benna di possibili risposte
Glen_b -Reinstate Monica

3
Alcune brevi discussioni su un piccolo contesto storico sono qui (almeno in termini di relazione con la funzione beta incompleta). Ha connessioni con la distribuzione gamma e molte, molte altre distribuzioni a parte e si presenta abbastanza ragionevolmente in un numero di modi diversi; come sottolinea Xi'an, ha anche origini storiche nel sistema Pearson . Che tipo di risposta cerchi qui? Cosa viene dato / cosa deve essere derivato?
Glen_b

Risposte:


6

Come ex fisico posso vedere come avrebbe potuto essere derivato. Ecco come procedono i fisici:

quando incontrano un integrale finito di una funzione positiva, come la funzione beta : istintivamente definiscono una densità: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1

B(x,y)=01tx1(1t)y1dt
dove0<s<1
f(s|x,y)=sx1(1s)y101tx1(1t)y1dt=sx1(1s)y1B(x,y),
0<s<1

Lo fanno a tutti i tipi di integrali tutto il tempo così spesso che accade in modo riflessivo senza nemmeno pensare. Chiamano questa procedura "normalizzazione" o nomi simili. Nota come per definizione banalmente la densità abbia tutte le proprietà che vuoi che abbia, come sempre positive e ne sommano una.

La densità che ho dato sopra è di distribuzione Beta.f(t)

AGGIORNARE

@ whuber sta chiedendo cosa c'è di così speciale nella distribuzione Beta mentre la logica sopra potrebbe essere applicata a un numero infinito di integrali adatti (come ho notato nella mia risposta sopra)?

La parte speciale proviene dalla distribuzione binomiale . Scriverò il suo PDF usando una notazione simile alla mia beta, non la solita notazione per parametri e variabili:

f(x,y|s)=(y+xx)sx(1s)y

Qui, - numero di successi e fallimenti e s - probabilità di successo. Puoi vedere come questo è molto simile al numeratore nella distribuzione Beta. In effetti, se cerchi il precedente per la distribuzione binomiale, sarà la distribuzione beta. Non è sorprendente anche perché il dominio del Beta è 0-1, e questo è ciò che si fa nel teorema di Bayes: integrare il parametro di s , che è la probabilità di successo in questo caso, come illustrato di seguito: f ( x | X ) = f ( X | s ) f ( s )x,yss quif(s)- probabilità (densità) di probabilità di successo date le precedenti impostazioni della distribuzione Beta, ef(X|s)- densità di questo insieme di dati (ad esempio il successo osservato e insuccessi) una probabilitàs.

f^(x|X)=f(X|s)f(s)01f(X|s)f(s)ds,
f(s)f(X|s)s

1
@ Xi'an OP non sembra essere interessato alla storia.
Aksakal,

1
"Spiegazione delle origini di questa formula ... in qualunque contesto sia stata originariamente sviluppata" mi suona come una storia :-).
whuber

3
Credo che uno possa essere interessato sia alla storia che ai primi principi allo stesso tempo. :-) Sebbene la tua risposta sia matematicamente corretta, sfortunatamente è troppo generica: si può fare una densità di qualsiasi funzione non negativa con integrale finito. Cosa c'è di così speciale in questa particolare famiglia di distribuzioni? Pertanto, il tuo approccio non sembra soddisfare nessuno dei due punti di vista.
whuber

2
@WillBradshaw, sì. Normalmente, guardiamo alla distribuzione binomiale in funzione del numero di guasti (o successi) data la probabilità e il numero di prove come parametri. In questo modo è una distribuzione discreta . Tuttavia, se lo guardi come una funzione delle probabilità dato il numero di successi e insuccessi come parametri, diventa una distribuzione Beta una volta ridimensionata, una distribuzione continua , tra l'altro.
Aksakal,

2
L' articolo di Wikipedia sulla distribuzione Beta lo fa risalire a Karl Pearson, esattamente come suggerito da @ Xi'an. Stigler, nel suo The History of Statistics: The Measurement of Uncertainty Before 1900 , fornisce un breve resoconto della derivazione di Pearson usando la notazione moderna.
whuber

15

enter image description here

B(a,b)menziona Wallis (1616-1703), Newton (1642-1726) e Stirling (1692-1770) che trattano casi speciali dell'integrale anche prima. Karl Pearson (1895) prima catalogato questa famiglia di distribuzioni come Pearson di tipo I .


F(p,q)

ϱ=σ^12/σ^22pσ^12χp2qσ^12χq2
pϱq+pϱB(p/2,q/2)
ωB(a,b)
ω/a(1ω)/bF(2a,2b)
B(a,b)F(p,q)
fp,q(x){px/q}p/21(1+px/q)(p+q)/2
y={px/q}{1+px/q}y(0,1)
X=qyp(1-y)
dXdy=qp(1-y)+qyp(1-y)2=pq(1-y)2
g(y)αyp/2-1(1-y)q/2+1(1-y)-2=yp/2-1(1-y)q/2+1
[dove tutte le costanti di normalizzazione sono ottenute imponendo che la densità si integri con una.

2
+1. Vale la pena notare che K. Pearson non si limitava a "catalogare" le distribuzioni Beta: le derivava attraverso soluzioni di una famiglia di equazioni differenziali ispirate da una relazione che osservava tra equazioni di differenza per il binomio e equazioni differenziali per la distribuzione normale. La generalizzazione dell'equazione della differenza binomiale alla distribuzione ipergeometrica ha prodotto una generalizzazione dell'equazione differenziale, le cui soluzioni includevano le distribuzioni Beta "Tipo I" e "Tipo II". Questo è esattamente il tipo di derivazione ab initio che l'OP sembra cercare.
whuber

2
Penso di poter imparare molto studiando questa risposta. Al momento è troppo avanzato per me, ma quando avrò tempo tornerò e cercherò gli argomenti che menzioni, quindi riprovo a capirlo. Grazie molto. :)
Will Bradshaw

1

Prima di tutto, non sono bravo a descrivere matematicamente precisi concetti nella mia testa, ma farò del mio meglio usando un semplice esempio:

Immagina di avere un arco, molte frecce e un bersaglio. Supponiamo inoltre che il tuo tasso di successoλ (per colpire il bersaglio) è precisamente una funzione della distanza dal centro del bersaglio e della forma seguente

λ=g(x)=λmax(q|xx0|)1q, q>0, 0λλmax
where x is the distance to the center of the target (x0). For q=1/2 this would be a first order approximation of a Gaussian. That would mean that you most frequently hit the bull-eye. Similarly, it approximates any bell-shaped curve, for example, resulting from diffusion of Brownian particles.

Now, let is furthermore assume that somebody really brave/stupid tries to trick you and displaces the target on every shot. Thereby we make x0 itself to be a random variable. If the distribution of that person's movements can be described by a (p-1)-power of g(x) (that is P(x0)=Cg(x)p1)), a simple transformation of random variables (remember P(λ)dλ=P(x0)dx0) leads to a Beta distributed λ:

P(λ)=P(g1(λ))|dg1(λ)dλ|=Cλp1(λmaxλ)q1

where the normalization constant C is the beta function. For the standard parametrization of the beta distribution we would set λmax=1.

In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.

I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms of g(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.

FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distribution g(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter Beta" - idea in action:

A jitter model leading to the Beta-Poisson spiking model.

A: Simulated 1D trial displacement, drawn from the jitter distribution in the inset (P(jitter)g(x)p1). The trial-averaged firing field (solid black line) is broader and has a lower peak rate as compared to the underlying tuning curve without jitter (solid blue line, parameters used: λmax=10,p=.6,q=.5. B: The resulting distribution of λ at x0 across N=100 trials and the analytical pdf of the Beta distribution. C: Simulated spike count distribution from a Poisson process with parameters λi where i denote the indices of the trials and the resulting Beta-Poisson distribution as derived as sketched above. D: Analogous situation in 2D with random shift angles leading to the identical statistics.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.