Stiamo studiando i test statistici bayesiani e ci imbattiamo in uno strano fenomeno (per me almeno).
Considera il seguente caso: siamo interessati a misurare quale popolazione, A o B, ha un tasso di conversione più elevato. Per un controllo di , , ovvero la probabilità di conversione è uguale in entrambi i gruppi. dati artificiali utilizzando un modello binomiale, ad esempio
Proviamo quindi a stimare utilizzando un modello beta-binomiale bayesiano in modo da ottenere elementi posteriori per ciascun tasso di conversione, ad esempio
La nostra statistica test è calcolata calcolando via monte carlo.
Ciò che mi ha sorpreso è che se , allora . Il mio pensiero era che sarebbe stato centrato attorno a 0,5 e anche convergere a 0,5 man mano che la dimensione del campione, , cresce.
La mia domanda è: perché quando ?p A = p B
Ecco un po 'di codice Python per dimostrare:
%pylab
from scipy.stats import beta
import numpy as np
import pylab as P
a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
assert a==b
A = np.random.binomial(N, a); B = np.random.binomial(N, b)
S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean()
samples.append(S)
P.hist(samples)
P.show()
R