Ciò che chiamiamo P-hacking è applicare più volte un test di significatività e riportare solo i risultati di significatività. Se questo è buono o cattivo dipende dalla situazione.
Per spiegare, pensiamo ai veri effetti in termini bayesiani, piuttosto che a ipotesi nulle e alternative. Finché crediamo che i nostri effetti di interesse provengano da una distribuzione continua, allora sappiamo che l'ipotesi nulla è falsa. Tuttavia, nel caso di un test su due lati, non sappiamo se sia positivo o negativo. Sotto questa luce, possiamo pensare ai valori di p per i test su due lati come una misura di quanto forte sia l'evidenza che la nostra stima ha la direzione corretta (cioè, effetto positivo o negativo).
p<α ), la probabilità di ottenere la direzione corretta dovrebbe essere maggiore della probabilità di ottenere la direzione errata (a meno che non si abbia qualche test davvero pazzo, davvero pessimo), sebbene la dimensione dell'effetto si avvicina a zero, la probabilità condizionata di ottenere la direzione corretta dato che l'evidenza sufficiente si avvicina a 0,5.
Ora, considera cosa succede quando torni indietro per ottenere più dati. Ogni volta che ottieni più dati, aumenta solo la tua probabilità di ottenere la direzione corretta in base a dati sufficienti. Quindi, in questo scenario, dovremmo renderci conto che ottenendo più dati, sebbene in realtà stiamo aumentando la probabilità di un errore di tipo I, stiamo anche riducendo la probabilità di concludere erroneamente la direzione sbagliata.
Prendi questo in contrasto con l'abuso più tipico di P-hacking; testiamo centinaia di dimensioni di effetti che hanno buone probabilità di essere molto piccole e riportiamo solo quelle significative. Nota che in questo caso, se tutti gli effetti sono piccoli, abbiamo una probabilità quasi del 50% di sbagliare la direzione quando dichiariamo il significato.
Ovviamente, i valori p prodotti da questo raddoppio dei dati dovrebbero ancora venire con un granello di sale. Mentre, in generale, non dovresti avere problemi con le persone che raccolgono più dati per essere più sicuri sulla dimensione dell'effetto, questo potrebbe essere abusato in altri modi. Ad esempio, un PI intelligente potrebbe rendersi conto che invece di raccogliere tutti i 100 punti dati contemporaneamente, potrebbero risparmiare un sacco di soldi e aumentare la potenza raccogliendo prima 50 punti dati, analizzandoli e quindi raccogliendo i successivi 50 se non è significativo . In questo scenario, aumentano la probabilità che la direzione dell'effetto sia erroneamente subordinata alla dichiarazione di significatività, poiché hanno maggiori probabilità di sbagliare la direzione dell'effetto con 50 punti dati che con 100 punti dati.
E infine, considera le implicazioni di non ottenere più dati quando abbiamo un risultato insignificante. Ciò implicherebbe mai la raccolta di ulteriori informazioni sull'argomento, che non spingerà davvero la scienza in avanti, vero? Uno studio sottodimensionato ucciderebbe un intero campo.