Qual è l'intuizione alla base della distribuzione beta?


438

Disclaimer: non sono uno statistico ma un ingegnere del software. La maggior parte delle mie conoscenze in statistica proviene dall'autoeducazione, quindi ho ancora molte lacune nella comprensione dei concetti che possono sembrare banali per altre persone qui. Quindi sarei molto grato se le risposte includessero termini meno specifici e più spiegazioni. Immagina di parlare con tua nonna :)

Sto cercando di capire la natura della distribuzione beta : a cosa dovrebbe essere usata e come interpretarla in ogni caso. Se stessimo parlando, diciamo, della distribuzione normale, si potrebbe descriverlo come orario di arrivo di un treno: più spesso arriva giusto in tempo, un po 'meno frequentemente è 1 minuto prima o 1 minuto di ritardo e molto raramente arriva con differenza di 20 minuti dalla media. La distribuzione uniforme descrive, in particolare, la possibilità di ogni biglietto alla lotteria. La distribuzione binomiale può essere descritta con lanci di monete e così via. Ma esiste una spiegazione così intuitiva della distribuzione beta ?

Diciamo, e . La distribuzione beta in questo caso si presenta così (generata in R):β = .5 B ( α , β )α=.99β=.5B(α,β)

inserisci qui la descrizione dell'immagine

Ma cosa significa in realtà? L'asse Y è ovviamente una densità di probabilità, ma cosa c'è sull'asse X?

Apprezzerei molto ogni spiegazione, sia con questo esempio che con qualsiasi altro.


13
L'asse y non è una probabilità (il che è ovvio, perché per definizione una probabilità non può trovarsi al di fuori dell'intervallo , ma questo diagramma si estende fino a 50 e - in linea di principio - a ). È una densità di probabilità : una probabilità per unità di x (e hai descritto x come un tasso). [0,1]50XX
whuber

4
@whuber: sì, capisco cos'è il PDF - è stato solo un errore nella mia descrizione. Grazie per una nota valida!
amico

1
Proverò a trovare il riferimento ma conosco alcune delle forme più bizzarre per la distribuzione beta generalizzata con forma hanno applicazioni come la fisica. Inoltre, puoi adattarlo a dati di esperti (min, mode, max) in ambienti poveri di dati ed è spesso meglio che usare una distribuzione triangolare (purtroppo spesso usata da IE). a+(ba)Beta(α1,α2)
SecretAgentMan

Ovviamente non hai mai viaggiato con la compagnia ferroviaria Deutsche Bahn. Saresti meno ottimista.
henning

Risposte:


622

La versione breve è che la distribuzione Beta può essere intesa come rappresentativa di una distribuzione di probabilità , ovvero rappresenta tutti i possibili valori di una probabilità quando non sappiamo quale sia quella probabilità. Ecco la mia spiegazione intuitiva preferita di questo:

Chiunque segua il baseball ha familiarità con le medie di battuta - semplicemente il numero di volte in cui un giocatore ottiene un colpo base diviso per il numero di volte che sale a pipistrello (quindi è solo una percentuale tra 0e 1). .266è generalmente considerata una media di battuta media, mentre .300è considerata eccellente.

Immagina di avere un giocatore di baseball e vogliamo predire quale sarà la sua media battuta per tutta la stagione. Potresti dire che possiamo usare la sua media di battuta finora, ma questa sarà una misura molto scarsa all'inizio di una stagione! Se un giocatore sale una volta e batte un singolo, la sua media in battuta è brevemente 1.000, mentre se colpisce, la sua media in battuta è 0.000. Non va molto meglio se vai a battere cinque o sei volte: potresti ottenere una serie fortunata e ottenere una media 1.000, o una serie sfortunata e ottenere una media 0, nessuna delle quali è un buon predittore remoto di come batterai quella stagione.

Perché la tua media battuta nei primi colpi non è un buon predittore della tua media battuta? Quando il primo at-bat di un giocatore è uno strikeout, perché nessuno prevede che non avrà mai un colpo per tutta la stagione? Perché stiamo entrando con le aspettative precedenti. Sappiamo che nella storia, la maggior parte delle medie di battuta nel corso di una stagione sono rimaste tra qualcosa di simile .215e .360, con alcune eccezioni estremamente rare su entrambi i lati. Sappiamo che se un giocatore ottiene alcuni strikeout di fila all'inizio, ciò potrebbe indicare che finirà un po 'peggio della media, ma sappiamo che probabilmente non si discosterà da quel range.

Dato il nostro problema medio di battuta, che può essere rappresentato con una distribuzione binomiale (una serie di successi e fallimenti), il modo migliore per rappresentare queste aspettative precedenti (ciò che in statistica chiamiamo semplicemente un precedente ) è con la distribuzione Beta - sta dicendo, prima di vedere il giocatore fare il suo primo swing, quello che ci aspettiamo che sia la sua media in battuta. Il dominio della distribuzione Beta è (0, 1), proprio come una probabilità, quindi sappiamo già che siamo sulla buona strada, ma l'adeguatezza della Beta per questo compito va ben oltre.

Ci aspettiamo che la media della battuta per tutta la stagione del giocatore sarà molto probabilmente in giro .27, ma che potrebbe ragionevolmente variare da .21a .35. Questo può essere rappresentato con una distribuzione Beta con i parametri e β = 219 :α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Ho escogitato questi parametri per due motivi:

  • La media è αα+β=8181+219=.270
  • Come puoi vedere nella trama, questa distribuzione è quasi interamente all'interno (.2, .35)- l'intervallo ragionevole per una media battuta.

Hai chiesto cosa rappresenta l'asse x in un grafico della densità di distribuzione beta: qui rappresenta la sua media di battuta. Si noti quindi che in questo caso, non solo l'asse y è una probabilità (o più precisamente una densità di probabilità), ma anche l'asse x (la media battuta è solo una probabilità di un colpo, dopo tutto)! La distribuzione Beta rappresenta una distribuzione di probabilità delle probabilità .

Ma ecco perché la distribuzione Beta è così appropriata. Immagina che il giocatore riceva un singolo colpo. Il suo record per la stagione è ora 1 hit; 1 at bat. Dobbiamo quindi aggiornare le nostre probabilità. Vogliamo spostare l'intera curva di poco per riflettere le nostre nuove informazioni. Mentre la matematica per dimostrarlo è un po 'coinvolta ( è mostrata qui ), il risultato è molto semplice . La nuova distribuzione Beta sarà:

Beta(α0+colpi,β0+miss)

Dove e β 0 sono i parametri con cui siamo partiti, ovvero 81 e 219. Pertanto, in questo caso, α è aumentato di 1 (il suo unico colpo), mentre β non è aumentato affatto (nessun mancato ancora). Ciò significa che la nostra nuova distribuzione è Beta ( 81 + 1 , 219 ) o:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

inserisci qui la descrizione dell'immagine

Si noti che è appena cambiato, il cambiamento è davvero invisibile a occhio nudo! (Questo perché un colpo non significa davvero nulla).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

inserisci qui la descrizione dell'immagine

Si noti che la curva è ora più sottile e spostata verso destra (media battuta più alta) rispetto al passato: abbiamo una migliore percezione di quale sia la media battuta del giocatore.

αα+β81+10081+100+219+200=.303100100+200=0,3338181+219=.270

Pertanto, la distribuzione Beta è la migliore per rappresentare una distribuzione probabilistica di probabilità - il caso in cui non sappiamo quale sia la probabilità in anticipo, ma abbiamo alcune ipotesi ragionevoli.


5
@ffriend: Sono contento che abbia aiutato- Spero che tu segua il baseball (altrimenti mi chiedo se sia comprensibile!)
David Robinson,

11
Ecco un esempio simile di John Cook che utilizza classifiche binarie di venditori Amazon con un numero diverso di recensioni. La discussione sulla scelta di un priore nei commenti è particolarmente illuminante: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

4
α0=β0=1/2

5
+ Mi piace la tua spiegazione su come aggiorni la distribuzione quando hai più dati.
Mike Dunlavey,

2
@ user27997 Questi hanno dato la media desiderata di .27 e una deviazione standard che è molto approssimativamente realistica per le medie di battuta (circa .025). Per inciso, do una spiegazione di come calcolare α e β da una media e varianza desiderate qui .
David Robinson,

48

Una distribuzione Beta viene utilizzata per modellare cose che hanno un intervallo limitato, come 0 a 1.

Esempi sono la probabilità di successo in un esperimento che ha solo due risultati, come successo e fallimento. Se esegui un numero limitato di esperimenti e alcuni hanno esito positivo, puoi rappresentare ciò che ti dice una distribuzione beta.

Un altro esempio sono le statistiche degli ordini . Ad esempio, se generi diversi (diciamo 4) numeri 0,1 uniformi casuali e li ordini, qual è la distribuzione del terzo?

nSS>1Betun'(S+1,(n-S)+1)

Altre informazioni al riguardo ...


41

(0,1)

U1...Unn(0,1)U(1)...U(n)(U1,...,Un)U1...UnU(1)=min(Uio)U(n)=max(Uio)U(K)~Beta(K,n+1-K)K=1,...,n

Questo risultato mostra che le distribuzioni Beta appaiono naturalmente in matematica e ha alcune interessanti applicazioni in matematica.


28

Ci sono due motivazioni principali:

Innanzitutto, la distribuzione beta è coniugata prima della distribuzione di Bernoulli. Ciò significa che se hai una probabilità sconosciuta come la propensione di una moneta che stai stimando con ripetute lancette di monete, allora la probabilità indotta sulla propensione sconosciuta da una sequenza di lanci di monete viene distribuita beta.

ceppo(X)ceppo(1-X)X[0,1]X1,...,Xn

La distribuzione beta non è speciale per modellare in generale cose su [0,1] poiché molte distribuzioni possono essere troncate a quel supporto e sono più applicabili in molti casi.


23

inserisci qui la descrizione dell'immagine

Supponiamo che un venditore su qualche sito di e-commerce riceva 500 valutazioni di cui 400 sono buone e 100 sono cattive.

p

La qualità ingenua in termini di valutazioni del venditore è dell'80% perché 0,8 = 400 / 500. Ma la qualità "vera" in termini di valutazioni che non conosciamo.

p=77%

p

α=400+1β=100+1

p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
Grazie per il tuo contributo! Tuttavia, sono perplesso su qualcosa: sebbene la legenda dell'istogramma affermi che mostrano densità beta , sembra che queste affermino anche che descrivono i risultati delle simulazioni binomiali ("quanto spesso accade in una simulazione"). Ma le due cose sono diverse, sebbene appaiano abbastanza vicine nell'illustrazione. (Questa è una conseguenza della quasi normalità della Beta con grandi parametri e il teorema del limite centrale per le distribuzioni binomiali.)
whuber

Questo è un buon punto! Ma non sono sicuro di come riformularlo in modo propper. Se avessi semplicemente tracciato l'istogramma, ovviamente, non vedresti gran parte della densità data la grandezza di esso. Quindi sì, l'istogramma è in realtà immagino non solo ridimensionato ma in realtà la densità (stimata) dell'istogramma originale. Dato il numero di esecuzioni, potrei anche capire un fattore e ridimensionarlo linearmente, ma sembrerebbe quasi esattamente lo stesso PLUS, ciò che (in realtà) voglio confrontare è la densità della beta con la densità del risultato della simulazione (il densità dell'istogramma originale).
Raffael,

8

Finora la preponderanza delle risposte ha riguardato la logica della generazione di camper beta come precedente per le proporzioni di un campione e una risposta intelligente ha correlato i camper beta per ordinare le statistiche.

Le distribuzioni Beta derivano anche da una semplice relazione tra due RV gamma (k_i, 1), i = 1,2 li chiama X e Y. X / (X + Y) ha una distribuzione Beta.

I camper gamma hanno già la loro logica nel modellare i tempi di arrivo per eventi indipendenti, quindi non affronterò questo dato che non è una tua domanda. Ma una "frazione di tempo" impiegata per completare una delle due attività eseguite in sequenza si presta naturalmente a una distribuzione Beta.


1
+1 Grazie per averlo sottolineato sull'utilizzo di Gamma per formare una distribuzione Beta. Ho sentito che se vuoi generalizzare la Beta in un Dirichlet, aggiungi semplicemente più Gamma nel denominatore. Forse uno statistico lo sa, ma per me è stato davvero utile quando si osservano gli intervalli di confidenza di un'osservazione categorica.
Mike Dunlavey,

4

X(1-X)f(X;α,β)=costanteXα-1(1-X)β-11/B(α,β)αβè come un "peso" per il contributo del fallimento. Hai uno spazio di parametri bidimensionale (uno per il contributo dei successi e uno per il contributo dei fallimenti) che rende difficile pensare e capire.


3

Nell'esempio citato i parametri sono alpha = 81 e beta = 219 dell'anno precedente [81 risultati in 300 a pipistrelli o (81 e 300 - 81 = 219)]

Non so come si chiamino l'ipotesi precedente di 81 hit e 219 out, ma in inglese, questa è l'assunzione a priori.

Notare come la stagione avanza la curva si sposta a sinistra o a destra e la probabilità modale si sposta a sinistra o a destra, ma c'è ancora una curva.

Mi chiedo se il Laa dei Grandi Numeri alla fine prenda piede e riporti la media in battuta a 0,270.

Per indovinare l'alfa e la beta in generale si dovrebbe prendere il numero completo di occorrenze precedenti (ai pipistrelli), la media battuta come nota, ottenere i colpi totali (l'alfa), la beta o il totale generale meno i fallimenti) e voilà - hai la tua formula. Quindi, lavorare i dati aggiuntivi come mostrato.


2

F(X)=tanh((X/p)n)

A proposito, che succede se produci una distribuzione dimensionale da un'osservazione microscopica e hai una distribuzione di particelle in numero e il tuo obiettivo è lavorare con una distribuzione di volume? È quasi obbligatorio ottenere la distribuzione originale in numero limitato a destra. Pertanto, la trasformazione è più coerente perché si è certi che nella nuova distribuzione del volume non venga visualizzata alcuna modalità, né mediana né media dimensione al di fuori dell'intervallo in cui si sta lavorando. Inoltre, eviti l'effetto Groenlandia Africa.

La trasformazione è molto semplice se hai forme regolari, cioè una sfera o un prisma. Dovresti aggiungere tre unità al parametro alfa della distribuzione del numero beta e ottenere la distribuzione del volume.


1
Benvenuti nel sito. Era inteso come una risposta alla domanda del PO? Puoi chiarire in che modo ciò si collega all'intuizione alla base della distribuzione beta?
gung

Modifica per chiarire l'intuizione su una distribuzione beta.
Glen_b,

1

Penso che non ci sia intuizione dietro la distribuzione beta! La distribuzione beta è solo una distribuzione molto flessibile con la gamma FIX! E per i numeri interi aeb è persino facile da gestire. Anche molti casi speciali della beta hanno il loro significato nativo, come la distribuzione uniforme. Quindi, se i dati devono essere modellati in questo modo o con una flessibilità leggermente maggiore, allora la beta è un'ottima scelta.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.