Convalida i test Web a / b rieseguendo un esperimento: è valido?


11

Un webinar l'altro giorno da una società di test a / b ha fatto spiegare al loro "Data Scientist" residente che dovresti convalidare i tuoi risultati rieseguendo l'esperimento. La premessa era che se si seleziona la confidenza al 95%, c'è una probabilità del 5% (1/20) di un falso positivo. Se riesegui l'esperimento con gli stessi vincoli, ora c'è un 1/400 (suppongo che abbiano determinato questo come 0,05 ^ 2 = 1/400)

È una dichiarazione valida? (vale a dire "corri due volte, due vittorie di significatività statistica = 1/400 probabilità di falsi positivi")? Sarebbe stato un approccio migliore per aumentare il livello di significatività?

Da un punto di vista commerciale, la preoccupazione che ho è di rieseguire l'esperimento, stai esponendo più utenti a una pagina inferiore (trattamento) e perdendo così potenziali vendite.


2
Ciao John, benvenuto su Stats.SE! Se sei soddisfatto di una delle risposte, dovresti accettarne una o fornire domande più chiare su ciò che stai cercando.
Christopher Aden,

John, sospetto che il vero problema riguardi il contesto. È raro che le persone dedicheranno risorse all'apprendimento di una sola cosa alla volta: vogliono sfruttare al massimo i loro dati, per una buona ragione. Ciò significa che ogni set di dati verrà utilizzato per più test. Inoltre, a volte i test sono post hoc : sono stati ispirati da schemi visti nei dati. In tali casi i test non hanno effettivamente il 95% desiderato (o qualsiasi altra cosa) e la replica è essenziale. Quindi: cosa intendi esattamente con "esperimento"? La risposta dipende da quel piccolo dettaglio!
whuber

Informazioni sulle ripetizioni degli esperimenti e sui valori di significatività, controlla questo fumetto XKCD: xkcd.com/882 Dopo averlo letto, controlla il commento whuber sopra.
Lucas Gallindo,

whuber: scusate la mancanza di dettagli, mi riferisco all'ottimizzazione del sito Web, quindi un esperimento di esempio sarebbe provare due versioni della mia homepage, con una divisione 50/50 di utenti per ognuna.
Giovanni

Risposte:


3

Ignorando le probabilità di un falso positivo per il momento, lo guarderei così:

  1. Se esegui l'esperimento due volte per ottenere lo stesso risultato, non hai idea se ci siano stati due risultati positivi positivi o due risultati falsi positivi consecutivi.
  2. Se esegui l'esperimento due volte e ottieni due risultati diversi, non sai quale sia il vero positivo e quale sia il risultato falso positivo.

In entrambi i casi dovresti quindi eseguire un terzo esperimento, per essere sicuro. Questo forse va bene per esperimenti che sono relativamente economici, ma dove il costo è potenzialmente elevato (come perdere clienti) è necessario considerare il vantaggio.

Osservando le probabilità, la prima volta che esegui l'esperimento, c'è una probabilità 1/20 di un falso positivo. La seconda volta che esegui l'esperimento c'è ancora una probabilità 1/20 di un falso positivo (pensalo come se lanciassi un dado in cui ogni tiro ha una probabilità 1/6 di ottenere un certo numero). C'è solo una possibilità di 1/400 di avere due falsi positivi di fila.

Il vero problema è avere un'ipotesi ben definita con procedure rigorose e avere una dimensione del campione, un livello di errore e un intervallo di confidenza che puoi convivere o permettersi. La ripetizione dell'esperimento dovrebbe essere lasciata all'esplorazione

  1. clienti nel tempo
  2. modifiche apportate dall'organizzazione
  3. modifiche apportate dalla concorrenza

piuttosto che i risultati della seconda ipotesi. Anche se spiegare questo ai manager è più facile a dirsi che a farsi.


mjc, grazie mille per il commento - questo è esattamente quello che stavo cercando.
Giovanni

2

Sì, questa affermazione è corretta, supponendo che il tuo esperimento sia l'ideale. Ma ottenere un esperimento ideale è molto più difficile di quanto questo sentimento dia credito. I dati del "mondo reale" sono disordinati, complicati e difficili da interpretare in primo luogo. C'è un enorme spazio per analisi imperfette, variabili nascoste (molto raramente "gli stessi vincoli") o comunicazioni errate tra uno scienziato di dati che fa il suo lavoro e un dirigente di marcatura che fa il loro.

Da un punto di vista aziendale garantire una buona metodologia e non essere troppo sicuri dei risultati; una sfida più complicata di quanto si possa pensare. Una volta che li abbassi, lavora su quel 5%.


Grazie, questo risponde alla prima domanda. Che dire della seconda domanda: "Sarebbe stato un approccio migliore per aumentare il livello di significatività?" Solo facendo una rapida simulazione in R (mantenendo la stessa dimensione e potenza dell'effetto, cambiando solo il valore di significatività) ho potuto raccogliere circa il 4,8% in meno di dati semplicemente scegliendo il 97,5% di significato, invece di eseguire esperimenti 2X con un significato del 95%. Dovrei chiarire - quando chiedo "Sarebbe stato meglio .." Voglio dire, potrei ottenere lo stesso risultato finale raccogliendo meno dati.
Giovanni
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.