Cosa causa la discontinuità nella distribuzione dei valori p pubblicati a p <.05?


27

In un recente articolo , Masicampo e Lalande (ML) hanno raccolto un gran numero di valori p pubblicati in numerosi studi diversi. Hanno osservato un curioso salto nell'istogramma dei valori di p proprio al livello critico canonico del 5%.

C'è una bella discussione su questo fenomeno ML sul blog del Prof. Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Sul suo blog troverai l'istogramma:

Istogramma dei valori p pubblicati

Poiché il livello del 5% è una convenzione e non una legge di natura, cosa causa questo comportamento della distribuzione empirica dei valori p pubblicati?

Distorsione di selezione, "aggiustamento" sistematico di valori p appena sopra il livello critico canonico, o cosa?


11
Ci sono almeno 2 tipi di spiegazioni: 1) il "problema del file drawer" - gli studi con p <.05 vengono pubblicati, quelli sopra non lo fanno, quindi è davvero una miscela di due distribuzioni 2) Le persone stanno manipolando le cose, forse in modo subconscio , per ottenere p <.05
Peter Flom - Ripristina Monica

3
Ciao @Zen. Sì, esattamente quel genere di cose. C'è una forte tendenza a fare cose come questa. Se la nostra teoria è confermata, è meno probabile che cerchiamo problemi statistici che non lo sia. Questo sembra essere parte della nostra natura, ma è qualcosa da cercare di difendersi.
Peter Flom - Ripristina Monica

@Zen Potresti essere interessato a questo post sul blog di Andrew Gelman che menziona alcune ricerche che scoprono che non ci sono pregiudizi nella pubblicazione nella ricerca sui pregiudizi della pubblicazione ...! andrewgelman.com/2012/04/…
smillig

1
Ciò che sarebbe interessante è il retrocalcolo dei valori di p dagli articoli di riviste che rifiutano espressamente gli articoli basati su valori di p, come era solito fare Epidemiologia (e in alcuni sensi, lo fa ancora). Mi chiedo se cambia se il diario ha dichiarato che non gli interessa, o se i revisori / autori stanno ancora facendo test mentali ad hoc basati su intervalli di confidenza.
Fomite

4
Come spiegato sul blog di Larry, questa è una raccolta di valori p pubblicati, piuttosto che un campione casuale di valori p campionati dal mondo dei valori p. Non vi è quindi alcun motivo per cui una distribuzione uniforme dovrebbe apparire nella foto, anche come parte di una miscela come modellata nel post di Larry.
Xi'an,

Risposte:


14

(1) Come già accennato da @PeterFlom, una spiegazione potrebbe essere correlata al problema "file drawer". (2) @Zen ha anche menzionato il caso in cui gli autori manipolano i dati oi modelli (ad esempio il dragaggio dei dati ). (3) Tuttavia, non testiamo le ipotesi su base puramente casuale. Cioè, le ipotesi non sono scelte per caso ma abbiamo un'ipotesi (più o meno forte) teorica.

Potresti anche essere interessato alle opere di Gerber e Malhotra che recentemente hanno condotto ricerche in quell'area applicando il cosiddetto "test pinza":

Potrebbe interessarti anche questo numero speciale a cura di Andreas Diekmann:


10

Un argomento che manca finora è la flessibilità dell'analisi dei dati nota come gradi di libertà dei ricercatori. In ogni analisi ci sono molte decisioni da prendere, dove impostare il criterio anomalo, come trasformare i dati e ...

Questo è stato recentemente sollevato in un articolo influente di Simmons, Nelson e Simonsohn:

Simmons, JP, Nelson, LD e Simonsohn, U. (2011). Psicologia dei falsi positivi: la flessibilità non divulgata nella raccolta e nell'analisi dei dati consente di presentare qualsiasi cosa come significativa. Scienze psicologiche , 22 (11), 1359–1366. DOI: 10,1177 / 0956797611417632

(Si noti che questo è lo stesso Simonsohn responsabile di alcuni casi di frode di dati rilevati di recente in Psicologia sociale, ad esempio intervista , blog-post )


8

Penso che sia una combinazione di tutto ciò che è già stato detto. Si tratta di dati molto interessanti e non ho mai pensato di esaminare distribuzioni di valore p come questa prima. Se l'ipotesi nulla è vera, il valore p sarebbe uniforme. Ma ovviamente con i risultati pubblicati non vedremmo l'uniformità per molte ragioni.

  1. Facciamo lo studio perché prevediamo che l'ipotesi nulla sia falsa. Quindi dovremmo ottenere risultati significativi il più delle volte.

  2. Se l'ipotesi nulla fosse falsa solo per metà del tempo, non otterremmo una distribuzione uniforme dei valori p.

  3. Problema relativo al cassetto dei file: come accennato, avremmo timore di inviare il documento quando il valore p non è significativo, ad esempio inferiore a 0,05.

  4. Gli editori rifiuteranno l'articolo a causa di risultati non significativi anche se abbiamo scelto di inviarlo.

  5. Quando i risultati sono al limite faremo delle cose (forse non con intenzioni maligne) per ottenere un significato. (a) arrotondare per difetto a 0,05 quando il valore p è 0,053, (b) trovare osservazioni che riteniamo possano essere anomale e dopo averle rimosse il valore p scende al di sotto di 0,05.

Spero che questo riassuma tutto ciò che è stato detto in modo ragionevolmente comprensibile.

Quello che penso sia interessante è che vediamo valori di p tra 0,05 e 0,1. Se le regole di pubblicazione rifiutassero qualsiasi cosa con valori di p superiori a 0,05, la coda destra si taglierebbe a 0,05. Ha effettivamente tagliato a 0,10? in tal caso forse alcuni autori e alcune riviste accetteranno un livello di significatività di 0,10 ma niente di più elevato.

Poiché molti articoli includono diversi valori di p (adattati per la molteplicità o meno) e il documento è accettato perché i test chiave erano significativi, potremmo vedere valori di p non significativi inclusi nell'elenco. Ciò solleva la domanda "Sono stati riportati tutti i valori p nel documento inclusi nell'istogramma?"

Un'ulteriore osservazione è che c'è una tendenza significativa verso l'alto nella frequenza dei lavori pubblicati poiché il valore p scende molto al di sotto di 0,05. Forse questa è un'indicazione degli autori che interpretano in modo eccessivo il valore p pensando che p <0,0001 sia molto più degno di pubblicazione. Penso che l'autore ignori o non si renda conto che il valore p dipende tanto dalla dimensione del campione quanto dalla grandezza della dimensione dell'effetto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.