Determinare la dimensione del campione prima di iniziare un esperimento o eseguire l'esperimento indefinitamente?


12

Ho studiato statistica anni fa e ho dimenticato tutto, quindi possono sembrare domande concettuali generali piuttosto che qualcosa di specifico, ma ecco il mio problema.

Lavoro per un sito di e-commerce come UX Designer. Abbiamo un framework di test A / B che è stato costruito anni fa di cui sto iniziando a dubitarne.

La metrica su cui prendiamo tutte le nostre decisioni è nota come conversione e si basa sulla percentuale di utenti che visitano il sito, finendo per acquistare qualcosa.

Quindi vogliamo provare a cambiare il colore del pulsante Acquista da Verde a Blu.

Il controllo è quello che già abbiamo, il pulsante verde in cui sappiamo qual è il nostro tasso di conversione medio. L'esperimento sta sostituendo il pulsante verde con il pulsante blu.

Concordiamo che il 95% di significatività è il livello di fiducia di cui siamo felici e accendiamo l'esperimento, lasciandolo in esecuzione.

Quando gli utenti visitano il sito, dietro le quinte c'è una probabilità 50/50 di essere inviati alla versione di controllo (pulsante verde) rispetto alla versione dell'esperimento (pulsante blu).

Dopo aver esaminato l'esperimento dopo 7 giorni, vedo un aumento del 10,2% nella conversione a favore dell'esperimento con una dimensione del campione di 3000 (1500 andando al controllo, 1500 all'esperimento) e una significatività statistica del 99,2%. Eccellente penso.

L'esperimento continua, la dimensione del campione aumenta e quindi vedo un aumento del + 9% nella conversione con un significato del 98,1%. Ok, mantieni l'esperimento più a lungo e ora l'esperimento mostra solo un aumento del 5% in conversione con un significato statistico del solo 92%, con il framework che mi dice che ho bisogno di 4600 campioni in più prima di raggiungere il 95% di significato?

A che punto è quindi l'esperimento conclusivo?

Se penso a un processo di sperimentazione clinica in cui si concordano in anticipo le dimensioni del campione e al completamento dell'esperimento si nota un miglioramento del 10% di qualsiasi metrica al 99% di significatività, viene presa la decisione che quel farmaco andrà sul mercato. Ma poi se avessero fatto l'esperimento su 4000 persone e vedessero un miglioramento del 5% di qualsiasi metrica a solo il 92% significativo, allora quel farmaco non sarebbe stato autorizzato ad andare sul mercato.

Dovremmo concordare in anticipo una dimensione del campione e fermarci una volta raggiunta la dimensione del campione ed essere soddisfatti dei risultati se la significatività fosse del 99% al punto di spegnere l'esperimento?


1
Potresti prendere in considerazione l'utilizzo di un approccio diverso in base al posizionamento e alla selezione .
pjs,

Mi sono imbattuto in questo film ( youtube.com/watch?v=fl9V0U2SGeI ). Mi sembra che risponda esattamente alla tua domanda.
Nathan,

Vale anche la pena notare che la cosa di studio di base è altamente riflessiva, in rapido movimento e richiede test di ripetizione costanti. Layout, colori, pulsanti ecc. Si muovono rapidamente man mano che vengono visualizzati nuovi siti, standard e stili. Anche un alto livello di problemi combinatori (quel pulsante potrebbe restituire risultati diversi con una leggera modifica al colore di sfondo, ecc.). Di conseguenza, indipendentemente dai livelli di significatività, non è possibile avere un livello di confidenza "reale" molto elevato (e certamente non per lunghi periodi) nei risultati anche se sembrano molto forti.
Filippo

Risposte:


11

Penso che il concetto che stai cercando sia l'analisi sequenziale. Ci sono una serie di domande su questo sito taggate con il termine che potresti trovare utili, forse adattare il valore p per l'analisi sequenziale adattiva (per il test chi quadrato)? sarebbe un punto di partenza. Puoi anche consultare l'articolo di Wikipedia qui . Un altro termine di ricerca utile è la spesa alfa che deriva dal fatto che quando si prende ogni aspetto ripetuto, è necessario considerarlo come consumando parte della propria alfa (livello di significatività). Se continui a sbirciare i tuoi dati senza tenere conto dei molteplici confronti, ti imbatti nel tipo di problema che descrivi nella tua domanda.


Grazie, sono alcuni buoni consigli di lettura. Non saprei nemmeno cosa cercare altrimenti. Lo consumerò.
Tech 75,

5

A che punto è quindi l'esperimento conclusivo?

Penso che sia qui l'errore nel pensare. Non ha senso in cui l'esperimento può essere "conclusivo" se si considera che ciò significa "dimostrare deduttivamente la causalità". Quando esegui un esperimento che prevede un test statistico, devi impegnarti per quanto riguarda le prove che ritieni sufficientemente valide.

Le procedure sperimentali statisticamente valide forniscono risultati con tassi noti di falsi positivi e falsi negativi. Se hai scelto una procedura che utilizza 0,05 come soglia di significatività, stai dicendo che sei disposto ad accettare che nel 5% dei casi in cui non vi è effettivamente alcuna differenza, il tuo test ti dirà che c'è una differenza.

Se si discosta dalla procedura nei modi descritti (senza scegliere in anticipo un punto di arresto, è sufficiente eseguire il test fino a quando il valore p calcolato non scende al di sotto di 0,05 o eseguire l'intero esperimento più volte fino a ottenere un risultato positivo , ecc.), stai rendendo più probabile che il tuo test ti dirà che esiste una differenza quando in realtà non c'è differenza. Stai aumentando la probabilità che verrai ingannato nel pensare che il tuo cambiamento sia stato efficace. Non lasciarti ingannare.

Leggi questo articolo: La psicologia dei falsi positivi non divulgata La flessibilità nella raccolta e nell'analisi dei dati consente di presentare qualsiasi cosa come significativa

Evidenzia diversi modi in cui puoi interferire in modo improprio con una procedura di test che ti rende più probabile che tu sia ingannato, incluso lo scenario esatto che descrivi (non sapendo quando interrompere un esperimento).

Altre risposte offrono alcune soluzioni per mitigare questi problemi (analisi sequenziale, correzione di Bonferroni per confronti multipli). Ma queste soluzioni, mentre in grado di controllare il tasso di falsi positivi, in genere ridurre la potenza dell'esperimento, rendendo meno probabile per rilevare le differenze quando si fanno esistere.


C'è un altro errore che stai commettendo. Parli di un "miglioramento del 10% di qualsiasi metrica al 99% di significatività". I test di significatività possono solo dirti se è probabile che la differenza osservata nel tuo campione sia dovuta a una reale differenza di fondo o solo a un rumore casuale; non ti danno intervalli di confidenza attorno a quale sia la vera entità della differenza.


3

Penso che tu stia facendo la domanda sbagliata qui. La domanda che stai ponendo riguarda i test statistici; Penso che la domanda giusta sia "perché l'effetto sta cambiando nel tempo?"

Se stai misurando una variabile 0/1 per la conversione (hanno acquistato del tutto?), Le persone che non hanno acquistato in una sessione iniziale potrebbero tornare indietro e acquistare successivamente. Ciò significa che il tasso di conversione aumenterà nel tempo e qualsiasi effetto derivante dall'acquisto di un cliente nella prima visita rispetto alle visite successive andrà perso.

In altre parole, prima fai bene quello che stai misurando, poi preoccupati di come stai misurando.


3

Questo è esattamente il motivo per cui è necessario definire un criterio chiaro prima delle prove. Come indica @mdewey, esistono metodi consolidati per la valutazione periodica di una sperimentazione, ma tutti richiedono un chiaro criterio di arresto per evitare qualsiasi confusione sulla decisione. Due problemi critici sono che è necessario correggere per confronti multipli e che ogni analisi non è indipendente, ma il suo esito è fortemente influenzato dai risultati delle analisi precedenti.

In alternativa, è consigliabile definire una dimensione del campione impostata sulla base di argomenti commercialmente rilevanti.

In primo luogo la società dovrebbe concordare quale sia una variazione commercialmente rilevante nel tasso di conversione (ovvero quale entità della differenza è necessaria per giustificare la presentazione di un caso commerciale per la distribuzione permanente della modifica). Senza essere d'accordo, non esiste un parametro ragionevole.

Una volta determinata la dimensione minima dell'effetto rilevante dal punto di vista commerciale (si noti che può cambiare caso per caso in base alla criticità della fase testata), si accetta il livello di rischio che la società è disposta ad accettare per la mancanza di un effetto reale ( beta) e per accettare un falso effetto (alfa).

Una volta che hai questi numeri inseriscili nel calcolatore della dimensione del campione e voilà, avrai la dimensione del campione impostata per prendere una decisione.


MODIFICARE

Usare campioni di piccole dimensioni e sperare che mostrino un effetto abbastanza grande è una falsa economia (dal momento che il tuo obiettivo è ottenere risultati attendibili attuabili piuttosto che generare ipotesi controverse per la pubblicazione accademica). Supponendo un campionamento imparziale, a dimensioni di campione basse, la probabilità di selezionare casualmente campioni che risultano essere tutti verso estremi opposti è maggiore rispetto a campioni di dimensioni elevate. Ciò porta ad una maggiore probabilità di respingere un'ipotesi nulla quando in realtà non c'è differenza. Quindi questo significherebbe far passare cambiamenti che non stanno effettivamente avendo un impatto reale o, peggio ancora, avere un impatto leggermente negativo. Questo è un modo diverso di spiegare di cosa parla @Science quando affermano

"stai rendendo più probabile che il tuo test ti dirà che esiste una differenza quando in realtà non c'è differenza"

Il punto di pre-specificare la tua analisi statistica (sia che si tratti di una dimensione del campione fissa come descrivo che di una strategia di valutazione multipla) è che si bilanci adeguatamente le richieste di errori di tipo I e II. La tua strategia attuale sembra concentrarsi sugli errori di tipo I e ignorare completamente il tipo II.

Come numerosi altri risponditori hanno dichiarato che i risultati non sono mai conclusivi, ma se hai considerato sia gli errori di tipo I e II sia il loro impatto sulla tua attività, avrai la massima fiducia che puoi sperare di implementare le modifiche in base ai risultati. Alla fine, il processo decisionale consiste nel sentirsi a proprio agio con il proprio livello di rischio e non trattare mai i propri "fatti" come immutabili.

Sono incuriosito da altri aspetti del tuo progetto di studio che potrebbero influenzare i risultati che vedi. Potrebbero rivelare alcuni fattori sottili che non sono quelli che desideri.

Le persone selezionate per il campione sono tutti i nuovi visitatori, tutti i visitatori di ritorno o è indifferenziato? I clienti affermati possono avere una maggiore tendenza a cercare qualcosa di nuovo (quindi orientato al cambiamento non a un colore specifico), ma per i nuovi clienti tutto è nuovo.

Le persone effettive che fanno clic ricorrono entro il periodo di tempo dello studio?

Se le persone visitano più volte durante il periodo di studio vengono presentate con la stessa versione o viene allocata casualmente al volo?

Se si include il visitatore ricorrente, esiste il pericolo di affaticamento dell'esposizione (non distrae più perché non è più nuovo)


Grazie per questo. È importante sottolineare in anticipo l'accettazione di una modifica commercialmente rilevante della conversione. Ma, come nel caso dell'e-commerce, i piccoli cambiamenti nella conversione possono avere un impatto sulle vendite, sarà un valore piuttosto basso.
Tech 75,

La differenza minima necessaria essendo piccola non è un problema, si assicurerà che la potenza sia corretta.
Rinnovo

0

La pratica comune di solito prevede che tu decida prima sulla dimensione del campione (per controllare il potere statistico del tuo test di ipotesi), quindi esegui l'esperimento.

In risposta alla tua posizione attuale, sembra che tu abbia combinato una serie di test di ipotesi. Ti consiglio di guardare il metodo di Fisher. Inoltre, probabilmente vorrai esaminare i metodi di Brown o Kost per adeguare il metodo di Fisher alle statistiche dei test dipendenti. Come menzionato da un altro intervistato, la conversione (o la non conversione) di un cliente influirà sul fatto che effettuerà un acquisto (o meno) alla visita successiva, indipendentemente dal colore del pulsante.

ripensamenti:

  1. Maggiori informazioni e fonti sui metodi di Fisher e le loro estensioni sono disponibili nell'articolo di Wikipedia per il metodo di Fisher.
  2. Ritengo sia importante menzionare che un esperimento non è mai veramente conclusivo. Un piccolo valore p non indica che il risultato è conclusivo, ma solo che l'ipotesi nulla è improbabile sulla base dei dati acquisiti.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.