Sto cercando di capire il ragionamento scegliendo un approccio di test specifico quando si tratta di un semplice test A / B - (ovvero due variazioni / gruppi con un respone binario (convertito o meno). Come esempio userò i dati di seguito
Version Visits Conversions
A 2069 188
B 1826 220
La risposta migliore qui è ottima e parla di alcune delle ipotesi sottostanti per i test del quadrato z, te chi. Ma ciò che trovo confuso è che diverse risorse online citeranno approcci diversi e penseresti che i presupposti per un test A / B di base dovrebbero essere praticamente gli stessi?
- Ad esempio, questo articolo usa z-score :
- Questo articolo usa la seguente formula (che non sono sicuro se è diversa dal calcolo di zscore?):
- Questo documento fa riferimento al test t (p 152):
Quindi quali argomentazioni possono essere fatte a favore di questi diversi approcci? Perché si dovrebbe avere una preferenza?
Per aggiungere un altro candidato, la tabella sopra può essere riscritta come una tabella di contingenza 2x2, in cui è possibile utilizzare il test esatto di Fisher (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Ma secondo questo thread l'esatto test del pescatore dovrebbe essere usato solo con campioni di dimensioni inferiori (qual è il limite?)
E poi ci sono i test t e z associati, il test f (e la regressione logistica, ma per ora lo voglio tralasciare) .... Mi sento affogare in diversi approcci di test e voglio solo essere in grado di fare una sorta di argomento per i diversi metodi in questo semplice caso di test A / B.
Utilizzando i dati di esempio sto ottenendo i seguenti valori p
https://vwo.com/ab-split-test-significance-calculator/ fornisce un valore p di 0,001 (punteggio z)
http://www.evanmiller.org/ab-testing/chi-squared.html (usando il test chi quadrato) fornisce un valore p di 0,00259
E in R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
dà un valore p di 0,002785305
Che immagino siano abbastanza vicini ...
Ad ogni modo, spero solo in una discussione salutare su quali approcci usare nei test online in cui le dimensioni dei campioni sono solitamente migliaia e i rapporti di risposta sono spesso del 10% o meno. Il mio istinto mi sta dicendo di usare il chi-quadrato, ma voglio essere in grado di rispondere esattamente al perché lo sto scegliendo in molti altri modi per farlo.