Test A / B: test z-test vs t-test vs chi square vs fisher test esatto


38

Sto cercando di capire il ragionamento scegliendo un approccio di test specifico quando si tratta di un semplice test A / B - (ovvero due variazioni / gruppi con un respone binario (convertito o meno). Come esempio userò i dati di seguito

Version  Visits  Conversions
A        2069     188
B        1826     220

La risposta migliore qui è ottima e parla di alcune delle ipotesi sottostanti per i test del quadrato z, te chi. Ma ciò che trovo confuso è che diverse risorse online citeranno approcci diversi e penseresti che i presupposti per un test A / B di base dovrebbero essere praticamente gli stessi?

  1. Ad esempio, questo articolo usa z-score :inserisci qui la descrizione dell'immagine
  2. Questo articolo usa la seguente formula (che non sono sicuro se è diversa dal calcolo di zscore?):

inserisci qui la descrizione dell'immagine

  1. Questo documento fa riferimento al test t (p 152):

inserisci qui la descrizione dell'immagine

Quindi quali argomentazioni possono essere fatte a favore di questi diversi approcci? Perché si dovrebbe avere una preferenza?

Per aggiungere un altro candidato, la tabella sopra può essere riscritta come una tabella di contingenza 2x2, in cui è possibile utilizzare il test esatto di Fisher (p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Ma secondo questo thread l'esatto test del pescatore dovrebbe essere usato solo con campioni di dimensioni inferiori (qual è il limite?)

E poi ci sono i test t e z associati, il test f (e la regressione logistica, ma per ora lo voglio tralasciare) .... Mi sento affogare in diversi approcci di test e voglio solo essere in grado di fare una sorta di argomento per i diversi metodi in questo semplice caso di test A / B.

Utilizzando i dati di esempio sto ottenendo i seguenti valori p

  1. https://vwo.com/ab-split-test-significance-calculator/ fornisce un valore p di 0,001 (punteggio z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (usando il test chi quadrato) fornisce un valore p di 0,00259

  3. E in R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuedà un valore p di 0,002785305

Che immagino siano abbastanza vicini ...

Ad ogni modo, spero solo in una discussione salutare su quali approcci usare nei test online in cui le dimensioni dei campioni sono solitamente migliaia e i rapporti di risposta sono spesso del 10% o meno. Il mio istinto mi sta dicendo di usare il chi-quadrato, ma voglio essere in grado di rispondere esattamente al perché lo sto scegliendo in molti altri modi per farlo.


Per quanto riguarda - e -test la tua domanda ha già una risposta qui: stats.stackexchange.com/questions/85804/…tzt
Tim

Ho trovato questa dimostrazione piuttosto utile. Ciò dimostra che il test z per le proporzioni è essenzialmente equivalente al test chi-quadrato di omogeneità sulla tabella di contingenza 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Risposte:


24

Utilizziamo questi test per motivi diversi e in circostanze diverse.

  1. -test. Untest z presuppone che le nostre osservazioni siano tratte indipendentemente da una distribuzione normale con media sconosciuta evarianza nota. Untest z viene utilizzato principalmente quando disponiamo di dati quantitativi. (cioè pesi di roditori, età di individui, pressione sistolica, ecc.) Tuttavia, itest z possono essere utilizzati anche se interessati alle proporzioni. (ovvero la percentuale di persone che dormono almeno otto ore di sonno, ecc.)zzzz

  2. -test. Untest t presuppone che le nostre osservazioni siano tratte indipendentemente da una distribuzione normale con media evarianza sconosciute. Si noti che con untest t , non si conosce la varianza della popolazione. Questo è molto più comune del conoscere la varianza della popolazione, quindi untest t è generalmente più appropriato di untest z , ma praticamente ci sarà poca differenza tra i due se le dimensioni del campione sono grandi.ttttz

zt

  1. ztz

  2. ppp

Continuo a discutere le dimensioni dei campioni - riferimenti diversi ti forniranno metriche diverse su quando i tuoi campioni sono abbastanza grandi. Vorrei solo trovare una fonte attendibile, guardare la loro regola e applicare la loro regola per trovare il test desiderato. Non "guarderei in giro", per così dire, finché non trovi una regola che "ti piace".

zt

ha senso? Spero che sia di aiuto!


Grazie per la risposta dettagliata! Lo esaminerò in dettaglio: sono sicuro che avrò alcune domande!
L Xandor,

Potresti spiegare ulteriormente in che modo il test chi-quadro e il test esatto di Fisher non indicano la direzione di un effetto? Se tutti i test di statistica inferenziale forniscono un livello di confidenza attorno al fatto che due set di campioni siano tratti da popolazioni diverse o dalla stessa popolazione, allora cos'è la teoria matematica che non ti permetterà di dire che la differenza direzionale nei valori medi sarebbe valida (gruppo B ha un punteggio più alto)?
Chris F,

Per chiarezza, il test chi-quadrato e il test esatto di Fisher stanno facendo la stessa cosa, ma il valore p viene calcolato in modo leggermente diverso. (È un'approssimazione sotto chi-quadrato e un calcolo esatto sotto l'esatto di Fisher.) Mi rivolgerò al chi-quadrato e generalizzerà con quello di Fisher. Il problema qui è la premessa. "Se tutti i test statistici inferenziali forniscono un livello di confidenza sul fatto che due campioni siano estratti da ..." - non è quello che fa il test chi-quadrato. L'ipotesi nulla per il test chi-quadrato è che non vi è alcuna associazione e l'ipotesi alternativa ...
Matt Brems,

... è che esiste qualche associazione tra le due variabili categoriali. Stai semplicemente testando l'esistenza di un'associazione e non pre-specificando una determinata direzione. (Esistono alcune statistiche meno note là fuori che specificano una certa relazione, quindi è possibile; tuttavia questo non è ciò che il test chi-quadrato è progettato per fare.) Per dedurre in seguito che esiste una particolare relazione direzionale basata su un valore p calcolato in base a una diversa serie di ipotesi progettate solo per verificare l'esistenza di un'associazione sarebbe un errore.
Matt Brems,

H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.