La frase p -hacking (anche: "dragaggio dei dati" , "snooping" o "pesca") si riferisce a vari tipi di negligenza statistica in cui i risultati diventano artificialmente statisticamente significativi. Esistono molti modi per ottenere un risultato "più significativo", incluso ma non si limita affatto a:
- analizzando solo un sottoinsieme "interessante" dei dati , in cui è stato trovato un modello;
- non essere in grado di adattarsi correttamente per più test , in particolare test post-hoc e non riportare test effettuati che non erano significativi;
- provare diversi test della stessa ipotesi , ad esempio un test sia parametrico che non parametrico ( in questo thread ne è discusso ), ma riportando solo il più significativo;
- sperimentando l'inclusione / esclusione di punti dati , fino ad ottenere il risultato desiderato. Un'opportunità si presenta quando "valori anomali di pulizia dei dati", ma anche quando si applica una definizione ambigua (ad esempio in uno studio econometrico di "paesi sviluppati", definizioni diverse producono gruppi di paesi diversi) o criteri di inclusione qualitativa (ad esempio in una meta-analisi , può essere un argomento finemente equilibrato se la metodologia di un particolare studio sia sufficientemente solida da includere);
- l'esempio precedente riguarda l'interruzione facoltativa , ovvero l'analisi di un set di dati e la decisione se raccogliere più dati o meno in base ai dati raccolti finora ("questo è quasi significativo, misuriamo altri tre studenti!") senza tenere conto di questo nell'analisi;
- sperimentazione durante il model-fitting , in particolare delle covariate da includere, ma anche riguardo alla trasformazione dei dati / forma funzionale.
Quindi sappiamo che il p -hacking può essere fatto. È spesso elencato come uno dei "pericoli del valore p " ed è stato menzionato nel rapporto ASA sul significato statistico, discusso qui su Cross Validated , quindi sappiamo anche che è una cosa negativa. Sebbene siano evidenti alcune motivazioni dubbie e (in particolare nella competizione per la pubblicazione accademica) incentivi controproducenti, ho il sospetto che sia difficile capire bene perché sia fatto, che si tratti di negligenza deliberata o semplice ignoranza. Qualcuno riporta valori p da una regressione graduale (perché trova che le procedure graduali "producono buoni modelli", ma non sono a conoscenza della presunta p-values are invalidated) è nell'ultimo campo, ma l'effetto è ancora p -hacking sotto l'ultimo dei miei punti elenco sopra.
Esistono certamente prove del fatto che p -hacking sia "là fuori", ad esempio Head et al (2015) cercano segni rivelatori che infettano la letteratura scientifica, ma qual è lo stato attuale della nostra base di prove al riguardo? Sono consapevole che l'approccio adottato da Head et al non è stato privo di controversie, quindi l'attuale stato della letteratura o il pensiero generale nella comunità accademica sarebbero interessanti. Ad esempio, abbiamo qualche idea su:
- Quanto è prevalente e fino a che punto possiamo differenziare la sua occorrenza dalla distorsione della pubblicazione ? (Questa distinzione è persino significativa?)
- L'effetto è particolarmente acuto al limite ? Si osservano effetti simili a p ≈ 0,01 , ad esempio, o vediamo intere gamme di valori p interessati?
- I modelli nel p -hacking variano tra campi accademici?
- Abbiamo idea di quali dei meccanismi di p -hacking (alcuni dei quali sono elencati nei punti elenco sopra) sono più comuni? Alcune forme si sono rivelate più difficili da rilevare rispetto ad altre perché sono "meglio mascherate"?
Riferimenti
Head, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). La portata e le conseguenze del p -hacking nella scienza . PLoS Biol , 13 (3), e1002106.