Relazione tra distribuzione binomiale e beta


27

Sono più un programmatore che uno statistico, quindi spero che questa domanda non sia troppo ingenua.

Succede nell'esecuzione del programma di campionamento in momenti casuali. Se prendo N = 10 campioni a tempo casuale dello stato del programma, potrei vedere la funzione Foo in esecuzione su, ad esempio, I = 3 di quei campioni. Sono interessato a ciò che mi dice dell'effettiva frazione di tempo che Foo sta eseguendo.

Comprendo che sono distribuito binomialmente con F * N medio. So anche che, dato I e N, F segue una distribuzione beta. In effetti ho verificato dal programma la relazione tra quelle due distribuzioni, che è

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Il problema è che non ho un'idea intuitiva della relazione. Non riesco a "immaginare" perché funzioni.

EDIT: Tutte le risposte sono state stimolanti, specialmente quelle di @ whuber, che devo ancora fare a pezzi, ma mettere in ordine le statistiche è stato molto utile. Tuttavia ho capito che avrei dovuto porre una domanda più elementare: dati I e N, qual è la distribuzione per F? Tutti hanno sottolineato che è Beta, che conoscevo. Alla fine ho capito da Wikipedia ( Coniugato precedente ) che sembra essere Beta(I+1, N-I+1). Dopo averlo esplorato con un programma, sembra essere la risposta giusta. Quindi, vorrei sapere se sbaglio. E sono ancora confuso riguardo alla relazione tra i due cdf mostrati sopra, perché si sommano a 1 e se hanno anche qualcosa a che fare con ciò che volevo davvero sapere.


Se "ciò che realmente volevi sapere" è "la frazione di tempo effettiva in cui Foo è in esecuzione", allora stai chiedendo un intervallo di confidenza binomiale o un intervallo credibile (bayesiano) binomiale.
whuber

@whuber: Beh, ho usato il metodo di messa a punto della messa a punto casuale per oltre 3 decenni, e alcune altre persone lo hanno scoperto. Ho detto alla gente che se una condizione è vera su 2 o più campioni a tempo casuale, la sua rimozione risparmierebbe una buona frazione di tempo. QUANTA buona parte è ciò su cui ho cercato di essere esplicito, supponendo che non conosciamo un precedente bayesiano. Ecco la fiamma generale: stackoverflow.com/questions/375913/... e stackoverflow.com/questions/1777556/alternatives-to-gprof/...
Mike Dunlavey

1
Bella idea L'ipotesi statistica è che l'interruzione è indipendente dallo stato di esecuzione, il che è un'ipotesi ragionevole. Un intervallo di confidenza binomiale è un buon strumento da utilizzare per rappresentare l'incertezza. (Può anche aprire gli occhi: nella tua situazione 3/10, un IC simmetrico al 95% bilaterale per la vera probabilità è [6,7%, 65,2%]. In una situazione 2/10 l'intervallo è [2,5 %, 55,6%]. Queste sono ampie gamme! Anche con 2/3, il limite inferiore è ancora inferiore al 10%. La lezione qui è che qualcosa di abbastanza raro può accadere due volte.)
whuber

@whuber: grazie. Hai ragione. Qualcosa di più utile è il valore atteso. Per quanto riguarda i priori, sottolineo che se vedi qualcosa solo una volta, non ti dice molto se non ti capita di sapere che il programma è in un ciclo infinito (o estremamente lungo).
Mike Dunlavey,

Penso che tutte le risposte e i commenti siano stati certamente illuminanti e corretti, ma nessuno ha davvero toccato l'interessante uguaglianza che @MikeDunlavey ha inserito nel suo post originale. Questa uguaglianza può essere trovata sulla Beta wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function ma non viene fornita alcuna descrizione del perché, è solo una proprietà.
bdeonovic,

Risposte:


27

Considera le statistiche dell'ordine x[0]x[1]x[n] di n+1 estrazioni indipendenti da una distribuzione uniforme. Poiché le statistiche degli ordini hanno distribuzioni Beta , la possibilità che x[k] non superi p è data dall'integrale Beta

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(Perché è questo? Ecco una dimostrazione non rigorosa ma memorabile. La possibilità che si trovi tra e è la possibilità che su valori uniformi, di loro si trovino tra e , almeno uno di questi si trova tra e , e il resto si trova tra e Per il primo ordine nell'infinitesimale dobbiamo solo considerare il caso in cui esattamente un valore (vale a dire, stesso) si trova tra e e quindix[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnk valori di superano . Poiché tutti i valori sono indipendenti e uniformi, questa probabilità è proporzionale a . Al primo ordine in questo equivale a , precisamente l'integrando della distribuzione Beta. Il termine può essere calcolato direttamente da questo argomento come coefficiente multinomiale o derivato indirettamente come la costante normalizzante dell'integrale.)p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

Per definizione, l'evento è che il valore non supera . Equivalentemente, almeno dei valori non supera : questa semplice (e spero ovvio) asserzione fornisce l'intuizione che cerchi. La probabilità dell'istruzione equivalente è data dalla distribuzione binomiale,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

In sintesi , l'integrale Beta suddivide il calcolo di un evento in una serie di calcoli: trovare almeno valori nell'intervallo , la cui probabilità che normalmente calcoleremmo con un cdf binomiale, è suddivisa in due parti casi esclusivi in ​​cui esattamente i valori sono compresi nell'intervallo e 1 valore è compreso nell'intervallo per tutti i possibili , e è una lunghezza infinitesimale. Sommando tutte queste "finestre" - vale a dire, integrando - deve dare la stessa probabilità del binomio cdf.k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

testo alternativo


Apprezzo lo sforzo. Dovrò davvero studiare questo perché non è la mia "lingua madre". Inoltre, vedo molti segni di dollaro e cose di formattazione. C'è qualcosa che non conosco che la fa sembrare una vera matematica?
Mike Dunlavey,

Quello che è successo? All'improvviso la matematica si presentò e la digitazione qui divenne molto lenta.
Mike Dunlavey,


Ho rivisto la domanda, se ti interessa dare un'occhiata. Grazie.
Mike Dunlavey,

1
È un po 'tardi, ma finalmente ho il tempo di sedermi e ricreare la tua discussione. La chiave era "coefficiente multinomiale". Avevo provato a capirlo usando semplici vecchi coefficienti binomiali e mi stavo impantanando. Grazie ancora per una bella risposta.
Mike Dunlavey,

12

Guarda il pdf di Binomial in funzione di : e il pdf di Beta in funzione di : Probabilmente puoi vedere che, con una scelta appropriata (intero) per e questi sono gli stessi. Per quanto posso dire, questo è tutto ciò che c'è da sapere in questa relazione: il modo in cui entra nel pdf binomiale sembra essere chiamato una distribuzione Beta.x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

So che sembrano quasi uguali, ma se sostituisco y per nx e se prendo il pdf beta e sostituisco x per a-1 ey per b-1 ottengo un fattore aggiuntivo di (x + y + 1), oppure n + 1. cioè (x + y + 1)! / x! / y! * p ^ x * q ^ y. Sembra essere abbastanza per buttarmi via.
Mike Dunlavey,

1
Forse qualcuno si carillon con una risposta completa, ma in una spiegazione "intuitivo" possiamo sempre a mano onda via costanti (come ) che non dipendono da variabili di interesse ( e ), ma sono tenuti a aggiungi / integra il pdf in 1. Sentiti libero di sostituire i segni "uguaglianza" con segni "proporzionale a". n+1xp
Aniko,

Buon punto. Penso che mi sto avvicinando a una comprensione. Sto ancora cercando di essere in grado di dire cosa ti dice x della distribuzione p, e perché quei due cdfs sommano a 1.
Mike Dunlavey,

1
Prendo una visione diversa delle spiegazioni "intuitive". In alcuni casi non ci preoccupiamo troppo delle costanti, ma in questo caso il nocciolo della questione è vedere perché appare un n + 1 e non un n. Se non lo capisci, allora la tua "intuizione" non è corretta.
whuber

Ho rivisto la domanda, se ti interessa dare un'occhiata. Grazie.
Mike Dunlavey,

5

Come avrete notato, la distribuzione Beta descrive la distribuzione della probabilità di prova dei parametri , mentre la distribuzione binomiale descrive la distribuzione del risultato dei parametri . Riscrivendo la tua domanda, quello che hai chiesto è perché Cioè, la probabilità che l'osservazione più uno sia maggiore dell'aspettativa dell'osservazione è uguale alla probabilità che l'osservazione più una è maggiore dell'aspettativa dell'osservazione.FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

Ammetto che questo potrebbe non aiutare a intuire la formulazione originale del problema, ma forse aiuta almeno a vedere come le due distribuzioni usano lo stesso modello sottostante di ripetute prove di Bernoulli per descrivere il comportamento di parametri diversi.


Apprezzo la tua opinione. Tutte le risposte mi stanno aiutando a pensare alla domanda e forse a capire meglio cosa sto chiedendo.
Mike Dunlavey,

Ho rivisto la domanda, se ti interessa dare un'occhiata. Grazie.
Mike Dunlavey,

1
Per quanto riguarda la tua revisione: Sì, , a condizione che i tuoi intervalli di campionamento siano sufficientemente lunghi da rendere ogni osservazione indipendente e identicamente distribuita. Nota che se vuoi essere bayesiano a riguardo e specificare una distribuzione precedente non uniforme per quella che ti aspetti sia la proporzione effettiva, puoi aggiungere qualcos'altro a entrambi i parametri. FBeta(I+1,NI+1)
sabato

@sesqu, la tua risposta potrebbe essere in qualche modo correlata alla mia domanda qui: stats.stackexchange.com/questions/147978/… ? Gradirei i tuoi pensieri al riguardo.
Vicent,

1

Nella terra bayesiana, la distribuzione Beta è il coniugato precedente per il parametro p della distribuzione binomiale.


2
Sì, ma perché è così?
vonjd,

1

Non posso commentare altre risposte, quindi devo creare la mia risposta.

Posterior = C * Likelihood * Prior (C è una costante che rende Posterior integrato a 1)

Dato un modello che utilizza la distribuzione binomiale per probabilità e la distribuzione beta per Prior. Il prodotto dei due che genera il posteriore è anche una distribuzione beta. Poiché il priore e il posteriore sono entrambi beta e quindi sono distribuzioni coniugate . il Priore (una Beta) è chiamato coniugato prima per la probabilità (un Binomiale). Ad esempio, se moltiplichi una Beta con una Normale, la Posteriore non è più una Beta. In sintesi, Beta e Binomial sono due distribuzioni che vengono frequentemente utilizzate nell'inferenza bayesiana. Beta è un priore coniugato di Binomial, ma le due distribuzioni non sono un sottoinsieme o un superset dell'altro.

L'idea chiave dell'inferenza bayesiana è che stiamo trattando il parametro p come una variabile casuale che varia da [0,1], il che è contrario all'approccio di inferenza del frequentatore in cui stiamo trattando il parametro p come fisso. Se osservi attentamente le proprietà della distribuzione Beta, vedrai che la sua media e la modalità sono determinate esclusivamente da e irrilevanti per il parametro pαβ . Questo, unito alla sua flessibilità, è il motivo per cui la Beta viene solitamente utilizzata come Priore.


1

Riepilogo: si dice spesso che la distribuzione Beta sia una distribuzione sulle distribuzioni! Ma cosa significa?

Significa essenzialmente che puoi correggere e pensare a come una funzione di . Quello che dice il calcolo seguente è che il valore di aumenta da a quando si sintonizza da a . Il tasso crescente ad ogni è esattamente a quella .n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

inserisci qui la descrizione dell'immagine


Sia denota una variabile casuale binomiale con campioni e la probabilità di successo . Usando l'algebra di base che abbiamoBin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

Ha anche una bella dimostrazione combinatoria, pensala come un esercizio!

Quindi abbiamo:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
che è una serie telescopica e può essere semplificata come

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Nota Per vedere una versione interattiva della trama, guarda questo . È possibile scaricare il notebook o utilizzare semplicemente il collegamento Binder.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.