La versione breve è che la distribuzione Beta può essere intesa come rappresentativa di una distribuzione di probabilità , ovvero rappresenta tutti i possibili valori di una probabilità quando non sappiamo quale sia quella probabilità. Ecco la mia spiegazione intuitiva preferita di questo:
Chiunque segua il baseball ha familiarità con le medie di battuta - semplicemente il numero di volte in cui un giocatore ottiene un colpo base diviso per il numero di volte che sale a pipistrello (quindi è solo una percentuale tra 0
e 1
). .266
è generalmente considerata una media di battuta media, mentre .300
è considerata eccellente.
Immagina di avere un giocatore di baseball e vogliamo predire quale sarà la sua media battuta per tutta la stagione. Potresti dire che possiamo usare la sua media di battuta finora, ma questa sarà una misura molto scarsa all'inizio di una stagione! Se un giocatore sale una volta e batte un singolo, la sua media in battuta è brevemente 1.000
, mentre se colpisce, la sua media in battuta è 0.000
. Non va molto meglio se vai a battere cinque o sei volte: potresti ottenere una serie fortunata e ottenere una media 1.000
, o una serie sfortunata e ottenere una media 0
, nessuna delle quali è un buon predittore remoto di come batterai quella stagione.
Perché la tua media battuta nei primi colpi non è un buon predittore della tua media battuta? Quando il primo at-bat di un giocatore è uno strikeout, perché nessuno prevede che non avrà mai un colpo per tutta la stagione? Perché stiamo entrando con le aspettative precedenti. Sappiamo che nella storia, la maggior parte delle medie di battuta nel corso di una stagione sono rimaste tra qualcosa di simile .215
e .360
, con alcune eccezioni estremamente rare su entrambi i lati. Sappiamo che se un giocatore ottiene alcuni strikeout di fila all'inizio, ciò potrebbe indicare che finirà un po 'peggio della media, ma sappiamo che probabilmente non si discosterà da quel range.
Dato il nostro problema medio di battuta, che può essere rappresentato con una distribuzione binomiale (una serie di successi e fallimenti), il modo migliore per rappresentare queste aspettative precedenti (ciò che in statistica chiamiamo semplicemente un precedente ) è con la distribuzione Beta - sta dicendo, prima di vedere il giocatore fare il suo primo swing, quello che ci aspettiamo che sia la sua media in battuta. Il dominio della distribuzione Beta è (0, 1)
, proprio come una probabilità, quindi sappiamo già che siamo sulla buona strada, ma l'adeguatezza della Beta per questo compito va ben oltre.
Ci aspettiamo che la media della battuta per tutta la stagione del giocatore sarà molto probabilmente in giro .27
, ma che potrebbe ragionevolmente variare da .21
a .35
. Questo può essere rappresentato con una distribuzione Beta con i parametri e β = 219 :α = 81β= 219
curve(dbeta(x, 81, 219))
Ho escogitato questi parametri per due motivi:
- La media è αα + β= 8181 + 219= .270
- Come puoi vedere nella trama, questa distribuzione è quasi interamente all'interno
(.2, .35)
- l'intervallo ragionevole per una media battuta.
Hai chiesto cosa rappresenta l'asse x in un grafico della densità di distribuzione beta: qui rappresenta la sua media di battuta. Si noti quindi che in questo caso, non solo l'asse y è una probabilità (o più precisamente una densità di probabilità), ma anche l'asse x (la media battuta è solo una probabilità di un colpo, dopo tutto)! La distribuzione Beta rappresenta una distribuzione di probabilità delle probabilità .
Ma ecco perché la distribuzione Beta è così appropriata. Immagina che il giocatore riceva un singolo colpo. Il suo record per la stagione è ora 1 hit; 1 at bat
. Dobbiamo quindi aggiornare le nostre probabilità. Vogliamo spostare l'intera curva di poco per riflettere le nostre nuove informazioni. Mentre la matematica per dimostrarlo è un po 'coinvolta ( è mostrata qui ), il risultato è molto semplice . La nuova distribuzione Beta sarà:
Beta ( α0+ colpi , β0+ miss )
Dove e β 0 sono i parametri con cui siamo partiti, ovvero 81 e 219. Pertanto, in questo caso, α è aumentato di 1 (il suo unico colpo), mentre β non è aumentato affatto (nessun mancato ancora). Ciò significa che la nostra nuova distribuzione è Beta ( 81 + 1 , 219 ) o:α0β0αβBeta (81+1,219)
curve(dbeta(x, 82, 219))
Si noti che è appena cambiato, il cambiamento è davvero invisibile a occhio nudo! (Questo perché un colpo non significa davvero nulla).
Beta (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Si noti che la curva è ora più sottile e spostata verso destra (media battuta più alta) rispetto al passato: abbiamo una migliore percezione di quale sia la media battuta del giocatore.
αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= .3338181 + 219= .270
Pertanto, la distribuzione Beta è la migliore per rappresentare una distribuzione probabilistica di probabilità - il caso in cui non sappiamo quale sia la probabilità in anticipo, ma abbiamo alcune ipotesi ragionevoli.