Quanto sappiamo di p-hacking "in the wild"?


94

La frase p -hacking (anche: "dragaggio dei dati" , "snooping" o "pesca") si riferisce a vari tipi di negligenza statistica in cui i risultati diventano artificialmente statisticamente significativi. Esistono molti modi per ottenere un risultato "più significativo", incluso ma non si limita affatto a:

  • analizzando solo un sottoinsieme "interessante" dei dati , in cui è stato trovato un modello;
  • non essere in grado di adattarsi correttamente per più test , in particolare test post-hoc e non riportare test effettuati che non erano significativi;
  • provare diversi test della stessa ipotesi , ad esempio un test sia parametrico che non parametrico ( in questo thread ne è discusso ), ma riportando solo il più significativo;
  • sperimentando l'inclusione / esclusione di punti dati , fino ad ottenere il risultato desiderato. Un'opportunità si presenta quando "valori anomali di pulizia dei dati", ma anche quando si applica una definizione ambigua (ad esempio in uno studio econometrico di "paesi sviluppati", definizioni diverse producono gruppi di paesi diversi) o criteri di inclusione qualitativa (ad esempio in una meta-analisi , può essere un argomento finemente equilibrato se la metodologia di un particolare studio sia sufficientemente solida da includere);
  • l'esempio precedente riguarda l'interruzione facoltativa , ovvero l'analisi di un set di dati e la decisione se raccogliere più dati o meno in base ai dati raccolti finora ("questo è quasi significativo, misuriamo altri tre studenti!") senza tenere conto di questo nell'analisi;
  • sperimentazione durante il model-fitting , in particolare delle covariate da includere, ma anche riguardo alla trasformazione dei dati / forma funzionale.

Quindi sappiamo che il p -hacking può essere fatto. È spesso elencato come uno dei "pericoli del valore p " ed è stato menzionato nel rapporto ASA sul significato statistico, discusso qui su Cross Validated , quindi sappiamo anche che è una cosa negativa. Sebbene siano evidenti alcune motivazioni dubbie e (in particolare nella competizione per la pubblicazione accademica) incentivi controproducenti, ho il sospetto che sia difficile capire bene perché sia fatto, che si tratti di negligenza deliberata o semplice ignoranza. Qualcuno riporta valori p da una regressione graduale (perché trova che le procedure graduali "producono buoni modelli", ma non sono a conoscenza della presunta p-values ​​are invalidated) è nell'ultimo campo, ma l'effetto è ancora p -hacking sotto l'ultimo dei miei punti elenco sopra.

Esistono certamente prove del fatto che p -hacking sia "là fuori", ad esempio Head et al (2015) cercano segni rivelatori che infettano la letteratura scientifica, ma qual è lo stato attuale della nostra base di prove al riguardo? Sono consapevole che l'approccio adottato da Head et al non è stato privo di controversie, quindi l'attuale stato della letteratura o il pensiero generale nella comunità accademica sarebbero interessanti. Ad esempio, abbiamo qualche idea su:

  • Quanto è prevalente e fino a che punto possiamo differenziare la sua occorrenza dalla distorsione della pubblicazione ? (Questa distinzione è persino significativa?)
  • L'effetto è particolarmente acuto al limite ? Si osservano effetti simili a p 0,01 , ad esempio, o vediamo intere gamme di valori p interessati?p0.05p0.01
  • I modelli nel p -hacking variano tra campi accademici?
  • Abbiamo idea di quali dei meccanismi di p -hacking (alcuni dei quali sono elencati nei punti elenco sopra) sono più comuni? Alcune forme si sono rivelate più difficili da rilevare rispetto ad altre perché sono "meglio mascherate"?

Riferimenti

Head, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). La portata e le conseguenze del p -hacking nella scienza . PLoS Biol , 13 (3), e1002106.


6
La tua ultima domanda è una buona idea per una ricerca: fornire alcuni dati grezzi a un gruppo di ricercatori provenienti da diversi campi, equipaggiarli in SPSS (o qualunque cosa utilizzino) e quindi registrare ciò che stanno facendo mentre competono tra loro per risultati più significativi .
Tim

1
Uno potrebbe essere in grado di farlo senza che i soggetti sappiano che stava accadendo usando una storia di sottomissioni. Non stanno pubblicando, ma stanno cercando in tutti i modi di colpire il numero magico.
EngrStudent

1
Crossvalidated ha raccolte (ad esempio wiki della community) di semplici esempi di simulazione di p-hacking? Sto immaginando esempi di giocattoli in cui il ricercatore simulato reagisce a risultati "marginalmente significativi" raccogliendo più dati, esperimenti con specifiche di regressione, ecc.
Adrian

2
@Adrian CV è solo un sito di domande e risposte, non contiene alcun dato o codice, non ha alcun repository nascosto - tutto ciò che trovi nelle risposte è tuo sotto licenza CC :) Questa domanda sembra porsi sulla raccolta di tali esempi.
Tim

1
@Tim ovviamente, non immaginavo nessun repository di codice nascosto - solo frammenti di codice inclusi nelle risposte. Ad esempio, qualcuno potrebbe chiedere "cos'è p-hacking?" E qualcuno potrebbe includere una simulazione giocattolo R nella sua risposta. Sarebbe opportuno rispondere alla domanda attuale con esempi di codice? "Quanto sappiamo" è una domanda molto ampia.
Adrian

Risposte:


76

SINTESI: se "p-hacking" è da intendersi in linea di massima alla sentieri che si biforcano di Gelman, la risposta a come prevalente è, è che è quasi universale.


Ad Andrew Gelman piace scrivere su questo argomento e ne ha postato ampiamente di recente sul suo blog. Non sono sempre d'accordo con lui, ma mi piace il suo punto di vista sul p -hacking. Ecco un estratto dall'Introduzione al suo documento Garden of Forking Paths (Gelman & Loken 2013; una versione apparso su American Scientist 2014; vedi anche il breve commento di Gelman sulla dichiarazione dell'ASA), sottolineo il mio:

Questo problema viene talvolta chiamato "p-hacking" o "gradi di libertà dei ricercatori" (Simmons, Nelson e Simonsohn, 2011). In un recente articolo, abbiamo parlato di "spedizioni di pesca [...]". Ma stiamo iniziando a ritenere che il termine "pesca" sia stato sfortunato, in quanto richiama l'immagine di un ricercatore che prova un confronto dopo un confronto, gettando la lenza nel lago ripetutamente fino a quando un pesce viene afferrato. Non abbiamo motivo di pensare che i ricercatori lo facciano regolarmente. Riteniamo che la vera storia sia che i ricercatori possano eseguire un'analisi ragionevole alla luce delle loro ipotesi e dei loro dati, ma se i dati fossero risultati diversamente, avrebbero potuto fare altre analisi altrettanto ragionevoli in quelle circostanze.

Ci rammarichiamo della diffusione dei termini "pesca" e "p-hacking" (e persino "gradi di libertà dei ricercatori") per due ragioni: in primo luogo, perché quando tali termini vengono utilizzati per descrivere uno studio, vi è l'implicazione fuorviante che i ricercatori stavano provando consapevolmente molte analisi diverse su un singolo set di dati; e, in secondo luogo, perché può condurre i ricercatori che sanno di non aver provato molte analisi diverse a pensare erroneamente di non essere così fortemente soggetti a problemi di gradi di libertà dei ricercatori. [...] Il nostro punto chiave qui è che è possibile avere molteplici potenziali confronti, nel senso di un'analisi dei dati i cui dettagli sono altamente dipendenti dai dati, senza che il ricercatore esegua alcuna procedura consapevole di pesca o esaminando più valori p .

Quindi: Gelman non ama il termine p-hacking perché implica che le ricerche stessero tradendo attivamente. Considerando che i problemi possono verificarsi semplicemente perché i ricercatori scelgono quale test eseguire / riferire dopo aver esaminato i dati, cioè dopo aver fatto alcune analisi esplorative.

Con una certa esperienza di lavoro in biologia, posso tranquillamente dire che lo fanno tutti . Tutti (me compreso) raccolgono alcuni dati con solo vaghe ipotesi a priori, fanno approfondite analisi esplorative, eseguono vari test di significatività, raccolgono altri dati, eseguono e rieseguono i test e infine riportano alcuni valori p nel manoscritto finale. Tutto questo accade senza imbrogliare attivamente, fare stupide raccolte di ciliegie in stile xkcd-jelly-bean o hackerare consapevolmente qualcosa.

Quindi, se "p-hacking" è da intendersi in linea di massima alla sentieri che si biforcano di Gelman, la risposta a come prevalente è, è che è quasi universale.

Le uniche eccezioni che vengono in mente sono studi di replicazione completamente preregistrati in psicologia o studi medici preregistrati.

Prove specifiche

In modo divertente, alcune persone hanno sondato i ricercatori per scoprire che molti ammettono di fare una sorta di hacking ( John et al. 2012, Misurare la prevalenza di pratiche di ricerca discutibili con incentivi per la verità ):

John et al

A parte questo, tutti hanno sentito parlare della cosiddetta "crisi della replicazione" in psicologia: più della metà dei recenti studi pubblicati nelle principali riviste di psicologia non si replicano ( Nosek et al. 2015, Stima della riproducibilità della scienza psicologica ). (Questo studio è stato recentemente ripreso in tutti i blog, a causa del numero di marzo 2016 di Science pubblicato un commento che tenta di confutare Nosek et al. E anche una risposta di Nosek et al. La discussione è proseguita altrove, vedi post di Andrew Gelman e il Post di RetractionWatch a cui si collega. Per dirla educatamente, la critica non è convincente.)

Aggiornamento novembre 2018: Kaplan e Irvin, 2017, Probabilità di effetti nulli di grandi studi clinici NHLBI nel corso del tempo sono aumentati mostrano che la frazione di studi clinici che riporta risultati nulli è aumentata dal 43% al 92% dopo la richiesta di pre-registrazione:

inserisci qui la descrizione dell'immagine


PDistribuzioni del valore in letteratura

Head et al. 2015

Non ho sentito parlare di Head et al. studiare prima, ma ora ho passato un po 'di tempo a guardare la letteratura circostante. Ho anche dato una breve occhiata ai loro dati grezzi .

p=ap<a00.06

Distribuzione dei valori di p in letteratura

0.0001pp(0.045,0.5)(0.04,0.045)p -hacking. Se uno è strabico, lo si può vedere sulla mia figura.

p=0.05p=0.048p=0.052p0.05

E a parte questo, l'effetto è minuscolo .

p0.05 . Ciò è chiaramente dovuto al bias della pubblicazione.)

p

p=0.04p=0.05p

p

ptFχ2

Carta Hartgerink PeerJ

pp

Krawczyk

p=0.05p0.05p -hacking.

Mascicampo e Lalande

p

Mascicampo e Lalande

Questo sembra impressionante, ma Lakens 2015 ( prestampa ) in un commento pubblicato sostiene che questo sembra impressionante solo grazie all'ingannevole adattamento esponenziale. Vedi anche Lakens 2015, Sulle sfide di trarre conclusioni da valori di p appena sotto 0,05 e riferimenti in esse.

Economia

zp

Brodeur

ppp<0.05


Falsamente rassicurante?

ppp0.050.05

Uri Simonsohn sostiene che ciò è "falsamente rassicurante" . Bene, in realtà cita questi articoli in modo non critico ma poi osserva che "la maggior parte dei valori di p sono molto più piccoli" di 0,05. Quindi dice: "È rassicurante, ma falsamente rassicurante". Ed ecco perché:

Se vogliamo sapere se i ricercatori p-hacking i loro risultati, dobbiamo esaminare i valori p associati ai loro risultati, quelli che potrebbero voler p-hacking in primo luogo. I campioni, per essere imparziali, devono includere solo osservazioni della popolazione di interesse.

La maggior parte dei valori p riportati nella maggior parte degli articoli sono irrilevanti per il comportamento strategico di interesse. Covariate, controlli di manipolazione, effetti principali negli studi che testano interazioni, ecc. Includendo questi sottovalutiamo il p-hacking e sopravvalutiamo il valore probatorio dei dati. L'analisi di tutti i valori p pone una domanda diversa, una meno sensata. Invece di "I ricercatori p-hackano ciò che studiano?" Chiediamo "I ricercatori p-hack tutto?"

pppp

Simonsohn

p

conclusioni

pp p0.05


4
simply because the researches chose what test to perform/report after looking at the dataSì; e il problema è inevitabile perché a doppio taglio. Quando viene scelto un metodo migliore per i dati, si tratta di un adattamento eccessivo di quel campione specifico o di una riunione di chiamate tecniche di quella popolazione? Oppure - rimuovendo gli outlier - sta fingendo la popolazione o recuperandola? Chi dirà, alla fine?
ttnphns

Il tipo di risposta che speravo di più era forse una breve rappresentazione della letteratura attuale, alcuni suggerimenti sul fatto che il documento Head et al sia un giusto riassunto dell'ultimo pensiero, ecc. Non mi aspettavo affatto questa risposta. Ma penso che sia grandioso, e i pensieri di Gelman e le intuizioni pratiche sono particolarmente utili. Quando ho scritto la domanda avevo in mente cose simili a @ttnphns in realtà (forse lo dimostra, ho persino considerato di includere la parola "overfitting".)
Silverfish

Tuttavia, a parte il malessere generale e inevitabile di "come la scienza funziona in pratica" essendo una corrispondenza imperfetta per i presupposti dei test statistici, mi chiedo se questa oscura "arte oscura degli hacker p" sia davvero là fuori, e in tal caso, fino a che punto arriva. Ci sono sicuramente forti (mis) incentivi per incoraggiarlo.
Silverfish

2
Mi hai incuriosito con questo Head et al. paper, @Silverfish, quindi devo confessare che in questo momento, invece di lavorare, sto sfogliando alcuni articoli che criticano i risultati di Head et al. e ho anche già scaricato i loro dati grezzi ... Oh mio.
ameba,

2
+1. L'ultimo articolo del blog Gelman ( andrewgelman.com/2016/03/09/… ) copre molto terreno e mette in evidenza un'interessante controreplica di un gruppo che ha tentato repliche ed è stato quindi fortemente criticato dagli autori dello studio originale: retractionwatch.com/ 2016/03/07 /…
Wayne

22

I grafici a imbuto sono stati una straordinaria innovazione statistica che ha trasformato la meta-analisi sulla sua testa. Fondamentalmente, un diagramma a imbuto mostra il significato clinico e statistico sullo stesso diagramma. Idealmente, formerebbero una forma a imbuto. Tuttavia, diverse meta-analisi hanno prodotto grafici a imbuto che mostrano una forte forma bimodale, in cui gli investigatori (o gli editori) hanno negato selettivamente risultati nulli. Il risultato è che il triangolo diventa più ampio, perché studi più piccoli e meno potenti hanno usato metodi più drastici per "incoraggiare" i risultati a raggiungere un significato statistico. Il team di Cochrane Report ha da dire su di loro .

Se esiste una distorsione, ad esempio perché studi più piccoli senza effetti statisticamente significativi (mostrati come cerchi aperti nella Figura 10.4.a, Pannello A) rimangono inediti, ciò porterà a un aspetto asimmetrico del diagramma a imbuto con uno spazio in un angolo inferiore di il grafico (pannello B). In questa situazione, l'effetto calcolato in una meta-analisi tenderà a sopravvalutare l'effetto dell'intervento (Egger 1997a, Villar 1997). Più pronunciata è l'asimmetria, più è probabile che la quantità di distorsione sia sostanziale.

La prima trama mostra una trama simmetrica in assenza di parzialità. Il secondo mostra un diagramma asimmetrico in presenza di distorsioni nei rapporti. Il terzo mostra un diagramma asimmetrico in presenza di distorsioni perché alcuni studi più piccoli (circoli aperti) sono di qualità metodologica inferiore e quindi producono stime esagerate degli effetti di intervento.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Sospetto che la maggior parte degli autori non sia a conoscenza dei metodi che usano per p-hack. Non tengono traccia del numero complessivo di modelli adatti, applicando criteri di esclusione diversi o optando per variabili di regolazione diverse ogni volta. Tuttavia, se dovessi imporre un semplice processo, mi piacerebbe vedere il numero totale di modelli adatti. Questo non vuol dire che potrebbero esserci motivi legittimi per ripetere i modelli, ad esempio abbiamo appena analizzato un'analisi del morbo di Alzheimer senza sapere che ApoE era stata raccolta nel campione. Uovo sulla mia faccia, riproviamo i modelli.


4

2
Un aspetto della mia domanda era la distinzione tra "p-hacking" e "distorsione da pubblicazione" - questa risposta in qualche modo unisce i due. Avrei ragione di interpretare ciò che stai dicendo in quel modo, cioè "il pregiudizio della pubblicazione è essenzialmente una forma di p-hacking, ma da parte dell'editore"?
Silverfish

1
pp

2
Hmm. Prima volevo protestare e affermare che il pregiudizio della pubblicazione è diverso dall'hacking p (allo stesso modo, penso, a come @Silverfish inquadrasse anche la sua Q), ma poi mi sono reso conto che è più complicato disegnare il confine di quanto pensassi inizialmente. Effettuare confronti multipli in stile jelly-bean e riportare solo quelli significativi (p-hacking?) Non è molto diverso dall'eseguire studi multipli e riportare solo quelli significativi (che è la distorsione della pubblicazione per definizione). Tuttavia, il p-hacking nel senso di massaggiare i dati fino a quando non producono p <0,05 non mi sembra sufficientemente diverso.
amoeba,

2
pp
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.