Determinazione sicura della dimensione del campione per i test A / B


22

Sono un ingegnere del software che sta cercando di costruire uno strumento di test A / B. Non ho una solida base di statistiche ma negli ultimi giorni ho letto parecchio.

Sto seguendo la metodologia descritta qui e riassumerò i punti pertinenti, di seguito.

Lo strumento consentirà ai progettisti e agli esperti di dominio di configurare un sito Web per suddividere il traffico ricevuto a un URL specifico tra due o più URL. Ad esempio, il traffico in arrivo su http://example.com/hello1 potrebbe essere suddiviso tra http://example.com/hello1 e http://example.com/hello2 . Il traffico verrebbe suddiviso equamente tra gli URL di destinazione e verranno confrontate le prestazioni dei processi di marketing in ciascuno degli URL di destinazione.

In questo esperimento, la dimensione del campione Ncorrisponderà ai visitatori. Il test misurerà "conversioni", un termine che descrive quando un visitatore si impegna in un'azione specifica in un processo di marketing. Le conversioni sono espresse in percentuale ed è auspicabile un tasso di conversione più elevato. Questo rende il test un confronto di proporzioni indipendenti. Lo strumento deve poter essere facilmente impiegato per produrre test con risultati sicuri. NÈ importante selezionare un valore appropriato di .

Nell'articolo collegato, sopra, viene utilizzata un'analisi di potenza di due proporzioni indipendenti per trovare N. Questo metodo richiede di conoscere in anticipo il tasso di conversione del controllo e di specificare il miglioramento della conversione desiderato. Specifica inoltre un livello di significatività del 95% e un potere statistico dell'80%.

Domande:

  1. Questo metodo è per determinare il Nsuono? In tal caso, qual è il modo più sicuro per determinare il tasso di conversione del controllo prima di iniziare il test?
  2. Ci sono modi validi per determinare Nche non richiedono di conoscere in anticipo i tassi di conversione del controllo?
  3. La metodologia nell'articolo collegato è valida ? In caso contrario, ci sono metodi accessibili e facilmente digeribili là fuori a cui potresti collegarmi?

Risposte:


12

Il metodo più comune per eseguire questo tipo di test è con intervalli di confidenza proporzionale binomiale (vedi http://bit.ly/fa2K7B )

Non sarai mai in grado di conoscere il "vero" tasso di conversione dei due percorsi, ma questo ti darà la possibilità di dire qualcosa all'effetto "Con una sicurezza del 99%, A è più efficace nella conversione di B".

Ad esempio: supponiamo che tu abbia eseguito 1000 prove lungo il percorso A. Di queste 1000 prove, 121 sono state conversioni riuscite (tasso di conversione di 0,121) e vorremmo un intervallo di confidenza del 99% attorno a questo risultato 0,121. La Z-score per gli intervalli di confidenza del 99% è 2.576 (basta guardare questo in una tabella), quindi secondo la Quindi, con il 99% di confidenza possiamo dire che0,094 P0,148, dove p è il "vero" tasso di conversione del processo A.

p^±2.576(0,121*(1-0,121)1000)p^±0.027
0.094p^0.148p^

Se costruiamo un intervallo simile per il processo B, possiamo confrontare gli intervalli. Se gli intervalli non si sovrappongono, allora possiamo dire con una sicurezza del 98% che uno è migliore dell'altro. (Ricorda, siamo fiduciosi solo del 99% per ogni intervallo, quindi la nostra fiducia complessiva sul confronto è 0,99 * 0,99)

NN

Buona fortuna a te. (Sto facendo il tifo per il processo B, comunque).


2
LUNTEXp^

p^0,094p^0.148SuceSSeStrioun'lSp^p

Questa risposta non è corretta In particolare: "Se gli intervalli non si sovrappongono, allora possiamo dire con una sicurezza del 98% che uno è migliore dell'altro" è sbagliato. Dati due intervalli di confidenza del 99% non sovrapposti, la certezza che la differenza esclude 0 almeno al 99%. Se gli intervalli hanno le stesse dimensioni, la differenza è significativa intorno al livello del 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan Il tuo commento vale per altri valori? Ad esempio, è corretto dire (secondo il tuo elogio) che la differenza dei mezzi è almeno del 30% se abbiamo due intervalli di confidenza del 30% non sovrapposti della stessa dimensione?
Felipe Almeida,

1
@Felipe, sì, il commento vale per tutti i valori e gli intervalli di confidenza del 30% non sovrapposti implica che la differenza che esclude 0 è almeno del 30%. Questo, tuttavia, non significa che ci sia una differenza del 30% nelle medie. I veri mezzi possono essere molto simili; stiamo semplicemente cercando di dimostrare che non sono esattamente gli stessi.
Bscan,

8

IMHO, per quanto va, il palo va nella giusta direzione. Tuttavia:

  • Il metodo proposto implica implicitamente due ipotesi: il tasso di conversione di base e l'entità della variazione prevista. La dimensione del campione dipende in larga misura dalla capacità di soddisfare questi presupposti. Ti consiglio di calcolare le dimensioni del campione richieste per diverse combinazioni di p1 e p2 che ritieni realistiche. Ciò ti darà un'idea di quanto sia affidabile il calcolo della dimensione del campione.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Pertanto, se il tasso di conversione effettivo è del 9% anziché del 10%, sono necessari altri 2000 casi per ogni scenario per rilevare il tasso di conversione del 10% -più del basale del nuovo modulo.

Al termine del test, è possibile calcolare gli intervalli di confidenza per le proporzioni in base alle osservazioni effettive.

  • n
    nsig.level

Ciao, grazie mille per aver dedicato del tempo a criticare questi metodi. Nel calcolo (1 - α) ² ≈ 10%, a cosa si riferisce "α"? Poiché l'acquisizione dei dati di test richiede molto tempo, come proponete di costruire questo esperimento se si vogliono testare tre proporzioni? Esiste un modo sicuro per farlo che non comporta l'esecuzione di più test? Con tre alternative, tre test non sono terribilmente onerosi, ma con quattro alternative il numero di combinazioni spara fino a sei.
jkndrkn,

1
@jkndrkn: α è la probabilità di cambiare falsamente dalla forma originale, alias α-errore o errore di tipo I. Vedi la risposta aggiornata.
cbeleites supporta Monica l'

1
@jkndrkn: Test multipli: darei un'occhiata a Fleiss et.al .: Metodi statistici per tariffe e proporzioni sulle procedure per tali test. Tuttavia, il punto chiave per tali test multipli è sempre quello di utilizzare le conoscenze degli esperti per ridurre il numero di alternative il più possibile prima di definire il test perché le dimensioni del campione richieste esplodono con il numero di alternative (come già realizzato).
cbeleites supporta Monica l'

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.