Ho studiato statistica anni fa e ho dimenticato tutto, quindi possono sembrare domande concettuali generali piuttosto che qualcosa di specifico, ma ecco il mio problema.
Lavoro per un sito di e-commerce come UX Designer. Abbiamo un framework di test A / B che è stato costruito anni fa di cui sto iniziando a dubitarne.
La metrica su cui prendiamo tutte le nostre decisioni è nota come conversione e si basa sulla percentuale di utenti che visitano il sito, finendo per acquistare qualcosa.
Quindi vogliamo provare a cambiare il colore del pulsante Acquista da Verde a Blu.
Il controllo è quello che già abbiamo, il pulsante verde in cui sappiamo qual è il nostro tasso di conversione medio. L'esperimento sta sostituendo il pulsante verde con il pulsante blu.
Concordiamo che il 95% di significatività è il livello di fiducia di cui siamo felici e accendiamo l'esperimento, lasciandolo in esecuzione.
Quando gli utenti visitano il sito, dietro le quinte c'è una probabilità 50/50 di essere inviati alla versione di controllo (pulsante verde) rispetto alla versione dell'esperimento (pulsante blu).
Dopo aver esaminato l'esperimento dopo 7 giorni, vedo un aumento del 10,2% nella conversione a favore dell'esperimento con una dimensione del campione di 3000 (1500 andando al controllo, 1500 all'esperimento) e una significatività statistica del 99,2%. Eccellente penso.
L'esperimento continua, la dimensione del campione aumenta e quindi vedo un aumento del + 9% nella conversione con un significato del 98,1%. Ok, mantieni l'esperimento più a lungo e ora l'esperimento mostra solo un aumento del 5% in conversione con un significato statistico del solo 92%, con il framework che mi dice che ho bisogno di 4600 campioni in più prima di raggiungere il 95% di significato?
A che punto è quindi l'esperimento conclusivo?
Se penso a un processo di sperimentazione clinica in cui si concordano in anticipo le dimensioni del campione e al completamento dell'esperimento si nota un miglioramento del 10% di qualsiasi metrica al 99% di significatività, viene presa la decisione che quel farmaco andrà sul mercato. Ma poi se avessero fatto l'esperimento su 4000 persone e vedessero un miglioramento del 5% di qualsiasi metrica a solo il 92% significativo, allora quel farmaco non sarebbe stato autorizzato ad andare sul mercato.
Dovremmo concordare in anticipo una dimensione del campione e fermarci una volta raggiunta la dimensione del campione ed essere soddisfatti dei risultati se la significatività fosse del 99% al punto di spegnere l'esperimento?