Perché questa distribuzione è uniforme?

Stiamo studiando i test statistici bayesiani e ci imbattiamo in uno strano fenomeno (per me almeno).

Considera il seguente caso: siamo interessati a misurare quale popolazione, A o B, ha un tasso di conversione più elevato. Per un controllo di , , ovvero la probabilità di conversione è uguale in entrambi i gruppi. dati artificiali utilizzando un modello binomiale, ad esempio $p_A = p_B$

n_{A} \sim Binomial (N, p_{A})

$n_A \sim \text{Binomial}(N, p_A)$

Proviamo quindi a stimare utilizzando un modello beta-binomiale bayesiano in modo da ottenere elementi posteriori per ciascun tasso di conversione, ad esempio $p_A, p_B$

P_{A} \sim Beta (1 + n_{A}, N - n_{A} + 1)

$P_A \sim \text{Beta}(1 + n_A, N - n_A +1 )$

La nostra statistica test è calcolata calcolando via monte carlo. $S = P(P_A > P_B\; |\; N, n_A, n_B)$

Ciò che mi ha sorpreso è che se , allora . Il mio pensiero era che sarebbe stato centrato attorno a 0,5 e anche convergere a 0,5 man mano che la dimensione del campione, , cresce. $p_A = p_B$ $S \sim \text{Uniform(0,1)}$ $N$

La mia domanda è: perché quando ? $S \sim \text{Uniform(0,1)}$ $p_A = p_B$

Ecco un po 'di codice Python per dimostrare:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

— Cam.Davidson.Pilon
fonte

Nota che non può essere esattamente uniforme, perché è una variabile discreta. Stai quindi chiedendo del comportamento asintotico. Inoltre, per piccolo (meno di , approssimativamente, con ) la distribuzione non è nemmeno lontanamente vicina all'uniforme.

S

$S$

N

$N$

100 / min (p, 1 - p)

$100/\min(p,1-p)$

p = p_{A} = p_{B}

$p=p_A=p_B$

— whuber

@whuber S non è discreto, è una probabilità che può cadere tra 0 e 1. Inoltre, anche per N basso, sto osservando un comportamento uniforme.

— Cam.Davidson.Pilon

Allora devo fraintendere la tua installazione. Per quanto ne so, per ogni dato valore di il valore di è un numero. Pertanto, accettando che e siano per il momento (come nel tuo codice), è una funzione di . Ma quest'ultimo, essendo realizzazioni di due distribuzioni binomiali, può raggiungere solo un insieme discreto di valori. Quando ho riprodotto il codice in , ottengo istogrammi decisamente non uniforme per piccole .

N, n_{A}, n_{B},

$N,n_A,n_B,$

S

$S$

N, p_{A},

$N, p_A,$

p_{B}

$p_B$

S

$S$

(n_{A}, n_{B})

$(n_A,n_B)$ R

N

$N$

— whuber

Sebbene in effetti la tua abbia valori compresi tra e , non confonderla con non discreti: può avere al massimo valori distinti (e in realtà ha meno di quello). Questo potrebbe non essere perfettamente chiaro perché la simulazione genera stime di anziché i suoi valori corretti e le stime hanno essenzialmente una distribuzione continua.

S

$S$

0

$0$

1

$1$

N^{2}

$N^2$

S

$S$

— whuber

@whuber sì, hai ragione, osservazione eccellente. Sono ancora bloccato sul perché appaia uniforme allora.

— Cam.Davidson.Pilon

Risposte:

TL; DR: le miscele di distribuzioni normali possono apparire uniformi quando le dimensioni dei contenitori sono grandi.

Questa risposta prende in prestito dal codice di esempio di @ whuber (che inizialmente pensavo fosse un errore, ma a posteriori era probabilmente un suggerimento).

Le proporzioni sottostanti alla popolazione sono uguali: a = b = 0.5.
Ogni gruppo, A e B, dispone di 10000 membri: N = 10000.
Ci accingiamo a condurre 5000 repliche di una simulazione: for i in range(5000):.

In realtà, quello che stiamo facendo è una di una . In ciascuna delle 5000 iterazioni faremo . $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$

In ogni iterazione sarà simulato un numero casuale di A e B che sono 'successi' (AKA convertito) date le proporzioni uguali sottostanti definite in precedenza: . Nominalmente questo produrrà A = 5000 e B = 5000, ma A e B variano da corsa sim a corsa sim e sono distribuiti tra le 5000 corse di simulazione in modo indipendente e (approssimativamente) normalmente (torneremo su quello). $\rm simulation_\rm{prime}$ A = np.random.binomial(N, a); B = np.random.binomial(N, b)

Passiamo ora a per una singola iterazione di in cui A e B hanno riscontrato un numero uguale di successi (come sarà la media nel caso). In ogni iterazione di , dati A e B, creeremo variate casuali della distribuzione beta per ciascun gruppo. Quindi li confronteremo e scopriremo se , ottenendo un valore VERO o FALSO (1 o 0). Alla fine di una serie di , abbiamo completato 15000 iterazioni e 15000 valori VERO / FALSO. La media di questi produrrà un singolo valore dalla distribuzione (approssimativamente normale) di campionamento della proporzione di $\rm simulation_\rm {underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ $\rm simulation_\rm {underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ .

Tranne ora selezionerà 5000 valori A e B. A e B raramente saranno esattamente uguali, ma le differenze tipiche nel numero di successi A e B sono sminuite dalla dimensione del campione totale di A e B. As e Bs tipici produrranno più tiri dalla loro distribuzione campionaria di proporzioni di , ma verranno tirati anche quelli ai bordi della distribuzione A / B. $\rm simulation_\rm{prime}$ ${\rm Beta}_A > {\rm Beta}_B$

Quindi, ciò che in sostanza superiamo molte sim run è una combinazione di distribuzioni campionarie di per combinazioni di A e B (con più pull dalle distribuzioni campionarie fatte dai valori comuni di A e B rispetto ai valori non comuni di A e B). Ciò si traduce in miscele di distribuzioni di tipo normale. Quando li combini su una piccola dimensione del cestino (come impostazione predefinita per la funzione dell'istogramma che hai usato ed è stata specificata direttamente nel tuo codice originale), finisci con qualcosa che sembra una distribuzione uniforme. ${\rm Beta}_A > {\rm Beta}_B$

Ritenere:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

— russellpierce
fonte

Quindi c'è una differenza tra il mio e il tuo codice. Campione A e B in ciascun loop, lo campionate una volta e calcolate S 5000 volte.

— Cam.Davidson.Pilon

La discrepanza sta nelle tue chiamate a rbinom, che restituisce un vettore. La chiamata successiva rbetaall'interno replicateè vettorializzato, in modo che il ciclo interno (interno) utilizza un diverso e per ciascuna delle 15000 variabili casuali generati (avvolgono per la finale 5000 dal proprio ). Vedi di più. Ciò differisce dal codice di @ Cam con ha una singola e fisse utilizzate in tutte le 15000 chiamate a variazione casuale per ciascuno dei 5000 loop di campionamento ( ).

A

$A$

B

$B$ NSIM = 10000?rbeta

A

$A$

B

$B$ replicate

— cardinale

ecco l'output per i curiosi: imgur.com/ryvWbJO

— Cam.Davidson.Pilon

Le uniche cose di cui sono a conoscenza che sono potenzialmente pertinenti a livello concettuale sono che a) la distribuzione prevista dei risultati è simmetrica, b) una dimensione del contenitore di 1 è sempre uniforme, c) una dimensione del contenitore di 2 per una distribuzione simmetrica apparirà anche sempre uniforme, d) il numero di possibili distribuzioni di campionamento che possono essere ricavate dagli aumenti con N, e) i valori di S non possono accumularsi su 0 o 1 da soli perché beta non è definita quando ci sono 0 successi in entrambi i gruppi e f) i campioni sono limitati tra 0 e 1.

— russellpierce,

Solo a scopo di osservazione possiamo vedere che le distanze tra i centroidi delle distribuzioni di campionamento si riducono quando i centroidi delle distribuzioni di campionamento si allontanano da 0,5 (probabilmente correlato al punto f sopra). Questo effetto tende a contrastare la tendenza delle alte frequenze delle osservazioni per i successi quasi uguali più comuni nel caso del gruppo A e del gruppo B. Tuttavia, dare una soluzione matematica sul perché sia o perché dovrebbe produrre distribuzioni normali per determinate dimensioni dei contenitori non si trova in nessun luogo vicino al mio territorio.

— russellpierce,

Per avere un po 'di intuizione per quello che sta succedendo, sentiamoci liberi di rendere molto grande e così facendo ignoriamo il comportamento e sfruttiamo i teoremi asintotici che affermano che le distribuzioni sia Beta che Binomiale diventano approssimativamente normali. (Con qualche problema, tutto ciò può essere reso rigoroso.) Quando lo facciamo, il risultato emerge da una relazione specifica tra i vari parametri. $N$ $O(1/N)$

Poiché prevediamo di utilizzare approssimazioni normali, presteremo attenzione alle aspettative e alle variazioni delle variabili:

Come binomiale variates, e hanno aspettative di e le varianze di . Di conseguenza e hanno aspettative di e varianza . $(N, p)$ $n_A$ $n_B$ $pN$ $p(1-p)N$ $\alpha=n_A/N$ $\beta=n_B/N$ $p$ $p(1-p)/N$
Come una Beta , ha un'aspettativa di e una varianza di . Approssimando, scopriamo che ha un'aspettativa di $(n_A+1, N+1-n_A)$ $P_A$ $(n_A+1)/(N+2)$ $(n_A+1)(N+1-n_A) / [(N+2)^2(N+3)]$ $P_A$

$E (P_{A}) = α + O (1 / N)$ $\mathbb{E}(P_A) = \alpha+O(1/N)$
e una varianza di

$Var (P_{A}) = α (1 - α) / N + O (1 / N^{2}),$ $\text{Var}(P_A) = \alpha(1-\alpha)/N + O(1/N^2),$
con risultati simili per . $P_B$

Approssimiamo quindi le distribuzioni di e con le distribuzioni Normale e Normal (dove il secondo parametro indica la varianza ). La distribuzione di conseguenza è approssimativamente normale; con spirito, $P_A$ $P_B$ $(\alpha, \alpha(1-\alpha)/N)$ $(\beta,\beta(1-\beta)/N)$ $P_A-P_B$

P_{A} - P_{B} \approx Normal (α - β, \frac{α (1 - α) + β (1 - β)}{N}) .

$P_A-P_B \approx \text{Normal}\left(\alpha-\beta, \frac{\alpha(1-\alpha) + \beta(1-\beta)}{N}\right).$

Per molto grande , l'espressione non varierà sensibilmente da tranne con probabilità molto bassa (un altro termine trascurato ). Di conseguenza, lasciando che sia il normale CDF standard, $N$ $\alpha(1-\alpha) + \beta(1-\beta)$ $p(1-p)+p(1-p)=2p(1-p)$ $O(1/N)$ $\Phi$

Pr (P_{A} > P_{B}) = Pr (P_{A} - P_{B} > 0) \approx Φ (\frac{α - β}{\sqrt{2 p (1 - p) / N}}) .

$\Pr(P_A\gt P_B) =\Pr(P_A-P_B\gt 0) \approx \Phi\left(\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}\right).$

Ma poiché ha zero media e varianza è uno standard normale variata (almeno approssimativamente). è la sua trasformazione integrale di probabilità ; è uniforme . $\alpha-\beta$ $2p(1-p)/N,$ $Z=\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}$ $\Phi$ $\Phi(Z)$

— whuber
fonte

Sto con te fino a ... poi vai in un'altra direzione che non ho seguito del tutto. È definito due volte, una volta come il CDF normale standard e poi come l'integrale probabilità trasformare? Spero che tu possa espandere la tua descrizione attorno a questi passaggi e metterli in relazione con il codice / problema iniziale. Forse tornare indietro e riaffermare quali parametri specifici producono il risultato uniforme.

P_{A} - P_{B} \approx N o r m a l

$P_A - P_B \approx Normal$

Φ

$\Phi$

— Russellpierce,

@rpierce (1) La differenza è approssimativamente normale perché e sono indipendenti e ciascuna è approssimativamente normale. La media è la differenza delle medie e la varianza è la somma delle varianze. (2) La trasformata integrale di probabilità è il CDF: è il caso di qualsiasi variabile casuale con distribuzione continua , che è uniforme.

P_{A} - P_{B}

$P_A-P_B$

P_{A}

$P_A$

P_{B}

$P_B$

X

$X$

F

$F$

F (X)

$F(X)$

— whuber

Oh, ne ho preso 1, era la roba dopo che mi sono perso. Sarà stupidamente stupido, ma perché uguale al CDF?

P r (P_{A} > P_{B})

$Pr(P_A>P_B)$

— russellpierce,

@rpierce Ciò deriva piuttosto direttamente dalla definizione, ma c'è una leggera svolta in cui viene invocata la simmetria della distribuzione normale. Abbiamo a che fare con una variata normale presume di avere un'aspettativa di e varianza . Standardizzando , è naturale riscrivere la probabilità come

X = P_{A} - P_{B}

$X = P_A-P_B$

μ = α - β

$\mu=\alpha-\beta$

σ^{2} = 2 p (1 - p) / N

$\sigma^2 = 2p(1-p)/N$

X

$X$

Pr (X > 0) = Pr ((X - μ) / σ > (0 - μ) / σ) = 1 - Φ (- μ / σ) = Φ (μ / σ) .

$\Pr(X\gt 0) = \Pr((X-\mu)/\sigma \gt (0-\mu)/\sigma) = 1-\Phi(-\mu/\sigma) = \Phi(\mu/\sigma).$

— whuber

@whuber questo è abbastanza sorprendente. Sei un insegnante meraviglioso. Apprezzo sia la tua risposta sia la tua risposta, gli darò comunque credito in quanto ha risolto il nostro problema e hai dimostrato perché si verifica il comportamento. Ty!

— Cam.Davidson.Pilon