Il valore p è essenzialmente inutile e pericoloso da usare?


36

Questo articolo " The Odds, continuamente aggiornato" dal NY Times è successo per attirare la mia attenzione. Per essere brevi, afferma che

[Le statistiche bayesiane] si stanno rivelando particolarmente utili per affrontare problemi complessi, comprese ricerche come quella che la Guardia Costiera ha usato nel 2013 per trovare il pescatore scomparso, John Aldridge (anche se non finora nella caccia al volo 370 della Malaysia Airlines). ...... le statistiche bayesiane si stanno diffondendo in tutto, dalla fisica alla ricerca sul cancro, dall'ecologia alla psicologia ...

Nell'articolo, ci sono anche alcune critiche sul valore p del frequentista, ad esempio:

I risultati sono generalmente considerati "statisticamente significativi" se il valore p è inferiore al 5 percento. Ma c'è un pericolo in questa tradizione, ha affermato Andrew Gelman, professore di statistica alla Columbia. Anche se gli scienziati hanno sempre eseguito correttamente i calcoli - e non lo fanno, sostiene - accettare tutto con un valore p del 5 percento significa che uno su 20 risultati “statisticamente significativi” non sono altro che rumore casuale.

Oltre a ciò, forse il documento più famoso che critica il p-value è questo - "Metodo scientifico: errori statistici" di Regina Nuzzo di Nature , in cui sono state discusse molte questioni scientifiche sollevate dall'approccio al p-value, come i problemi di riproducibilità, hacking p-value, ecc.

I valori di P, il "gold standard" della validità statistica, non sono così affidabili come molti scienziati ritengono. ...... Forse il peggior errore è il tipo di autoinganno per cui lo psicologo Uri Simonsohn dell'Università della Pennsylvania e i suoi colleghi hanno reso popolare il termine P-hacking; è anche noto come dragaggio dei dati, ficcanaso, pesca, inseguimento di significato e doppia immersione. "P-hacking", afferma Simonsohn, "sta provando più cose fino a ottenere il risultato desiderato" - anche inconsciamente. ...... "Quel risultato sembra essere stato ottenuto tramite p-hacking, gli autori hanno abbandonato una delle condizioni in modo che il valore p complessivo fosse inferiore a 0,05" e "È una p-hacker, monitora sempre i dati mentre vengono raccolti. "

Un'altra cosa è una trama interessante come segue da qui , con il commento sulla trama:

Non importa quanto piccolo possa essere il tuo effetto, puoi sempre fare il duro lavoro di raccolta dei dati per superare la soglia di p <.05. Finché l'effetto che stai studiando non è inesistente, i valori p misurano semplicemente lo sforzo che hai fatto nella raccolta dei dati.

inserisci qui la descrizione dell'immagine

Con tutto quanto sopra, le mie domande sono:

  1. Cosa significa esattamente l'argomentazione di Andrew Gelman, nella citazione del secondo blocco? Perché ha interpretato il p-value del 5 percento come "un risultato statisticamente significativo su 20 sta notando ma rumore casuale"? Non sono convinto poiché per me il valore p viene utilizzato per dedurre un singolo studio. Il suo punto sembra legato a più test.

    Aggiornamento: controlla il blog di Andrew Gelman su questo: No, non l'ho detto! (Crediti a @Scortchi, @whuber).

  2. Date le critiche sul valore p, e anche dato che ci sono molti criteri informativi, come AIC, BIC, di Mallow per valutare la significatività di un modello (quindi variabili), non dovremmo usare affatto il valore p per la selezione delle variabili ma usi quei criteri di selezione del modello?Cp

  3. Esistono buone indicazioni pratiche sull'uso del valore p per analisi statistiche che potrebbero portare a risultati di ricerca più affidabili?
  4. Il framework di modellazione bayesiana sarebbe un modo migliore di perseguire, come sostengono alcuni statistici? In particolare, l'approccio bayesiano avrebbe maggiori probabilità di risolvere la ricerca errata o la manipolazione dei problemi relativi ai dati? Anche qui non sono convinto poiché il priore è molto soggettivo nell'approccio bayesiano. Esistono studi pratici e ben noti che dimostrano che l'approccio bayesiano è migliore del valore p del frequentista, o almeno in alcuni casi particolari?

    Aggiornamento: sarei particolarmente interessato a sapere se ci sono casi in cui l'approccio bayesiano è più affidabile dell'approccio con valore p del frequentista. Con "affidabile" intendo che l'approccio bayesiano ha meno probabilità di manipolare i dati per ottenere i risultati desiderati. Eventuali suggerimenti?


Aggiornamento del 09/06/2015

Ho appena notato la notizia e ho pensato che sarebbe bello metterla qui per la discussione.

Il diario di psicologia vieta i valori di P.

Un controverso test statistico ha finalmente raggiunto la fine, almeno in un diario. All'inizio di questo mese, gli editori di Basic and Applied Social Psychology (BASP) hanno annunciato che la rivista non avrebbe più pubblicato articoli contenenti valori di P perché le statistiche erano troppo spesso utilizzate per supportare la ricerca di qualità inferiore.

Insieme a un recente articolo, "Il valore volubile di P genera risultati irreprensibili" dalla natura , sul valore di P.

Aggiornamento 5/8/2016

A marzo, l'American Statistical Association (ASA) ha rilasciato dichiarazioni sulla significatività statistica e sui valori p, ".... La dichiarazione ASA ha lo scopo di guidare la ricerca in un'era" post p <0,05 "."

Questa affermazione contiene 6 principi che affrontano l'abuso del valore p:

  1. I valori P possono indicare l'incompatibilità dei dati con un modello statistico specificato.
  2. I valori P non misurano la probabilità che l'ipotesi studiata sia vera o la probabilità che i dati siano stati prodotti solo per caso.
  3. Le conclusioni scientifiche e le decisioni commerciali o politiche non dovrebbero basarsi solo sul fatto che un valore p superi una soglia specifica.
  4. Una corretta deduzione richiede piena trasparenza e trasparenza.
  5. Un valore p, o significato statistico, non misura la dimensione di un effetto o l'importanza di un risultato.
  6. Di per sé, un valore di p non fornisce una buona misura di prove riguardanti un modello o un'ipotesi.

Dettagli: "L'affermazione dell'ASA sui valori p: contesto, processo e scopo" .


11
0.050.05


4
Buona scoperta, @Scortchi! Per la cronaca, nel caso in cui il collegamento non dovesse andare a buon fine, Gelman rifiuta con enfasi la caratterizzazione del NY Times (anche se in modo molto discreto) e scrive che "accettare tutto con un valore p del 5 percento può portare a scoperte spurie - casi in cui un" "statisticamente significativo" modello nei dati non riflette un modello corrispondente nella popolazione - molto più del 5 percento delle volte ".
whuber

3
In riferimento al tuo commento "Finché l'effetto che stai studiando non è inesistente", questo è il punto di studi che coinvolgono i valori p: determinare se l'effetto che stai studiando è veramente presente o se le peculiarità nella i dati che hai raccolto sono solo dovuti a possibilità casuali. Abbassare il valore p con l'aumentare della dimensione del campione è completamente matematicamente valido e, di fatto, l'unica opzione. Non stai in alcun modo "hackerando" il valore p. Da un punto di vista intuitivo, ha senso che uno sforzo maggiore nella raccolta dei dati si tradurrebbe in una maggiore fiducia nelle conclusioni tratte da esso.
David Webb,

1
@DavidWebb Concordato. Se la dimensione dell'effetto è piccola, va bene e sarà più facile dire quanto sia grande o piccolo l'effetto con più dati. Se riesci a ottenere più dati, dovresti.
Desty,

Risposte:


25

Ecco alcuni pensieri:

  1. 80%100/118.7584%
  2. p
  3. p
  4. Non sono dogmaticamente contrario all'utilizzo dei metodi bayesiani, ma non credo che risolverebbero questo problema. Ad esempio, puoi semplicemente continuare a raccogliere dati fino a quando l'intervallo credibile non include più il valore che desideri rifiutare. Quindi hai un 'hacking a intervalli credibile'. A mio modo di vedere, il problema è che molti professionisti non sono intrinsecamente interessati alle analisi statistiche che usano, quindi useranno qualunque metodo sia loro richiesto in modo impensabile e meccanico. Per ulteriori informazioni sulla mia prospettiva qui, può essere utile leggere la mia risposta a: Dimensione dell'effetto come ipotesi per il test di significatività .

10
(+1) Un modo semplice per hackerare un intervallo credibile è adottare il giusto giusto prima :-). Naturalmente nessun professionista competente farebbe questo - Gelman sottolinea l'uso di valutazioni della sensibilità, iperpriors non informativi, ecc. - Ma poi nessun utente competente dei test di ipotesi farebbe l'hacking del valore di p, vero? D'altra parte, in un'analisi bayesiana potrebbe essere più difficile nascondere ciò che si sta facendo - supponendo che il precedente sia chiaramente rivelato - rispetto a tutte le analisi prive di documenti che potrebbero essere coinvolte nell'hacking del valore p.
whuber

1
@whuber, è vero, ma penso che possiamo mettere da parte qualsiasi problema con l'inadeguatezza o la soggettività del precedente. Se l'effetto vero non è esattamente 0, con dati sufficienti l'intervallo credibile alla fine non includerà 0, proprio come la p sarà <.05 (cfr. L'ultima citazione), quindi puoi continuare a raccogliere dati fino a quando non ottieni il risultato desiderato indipendentemente dal precedente.
gung - Ripristina Monica

4
Punti buoni. Mi viene in mente una recente domanda sulla previsione di guasti in 10.000 prodotti dopo aver osservato guasti in 100.000 di essi. La risposta è piuttosto sensibile alla precedente perché i fallimenti sono così rari. Questo può essere il tipo di situazione eccezionale che "dimostra la regola"; mostra che in realtà può essere impraticabile raccogliere dati sufficienti per ottenere il risultato desiderato. Questo è esattamente quando alcuni clienti iniziano a implorare lo statistico di "fare la loro magia" per ottenere il risultato desiderato! Probabilmente molti lettori hanno sentito quella pressione prima ...
whuber

1
@gung, nelle prove cliniche pratiche, ci sono sempre criteri di arresto in diverse fasi per il reclutamento di più soggetti per esperimenti. In tal senso, l'approccio bayesiano sembrerebbe meno propenso a manipolare l'intervallo credibile, quindi le conclusioni della ricerca?
Aaron Zeng,

2
@AaronZeng, mi sembra che i criteri di arresto esplicito si applichino ugualmente alle prospettive Frequentista e Bayesiana. Non vedo alcun vantaggio / svantaggio netto qui.
gung - Ripristina Monica

8

Per me, una delle cose più interessanti della controversia sul p-hacking è che l'intera storia di p <= 0,05 è lo standard "una volta nella luna blu" per il significato statistico, come ha osservato Joseph Kaldane in un articolo della JASA sulle statistiche forensi negli anni '90, non si basa assolutamente su nessuna teoria statistica. È una convenzione, una semplice euristica e una regola empirica che è iniziata con RA Fisher e da allora è stata reificata o consacrata nel suo attuale stato "indiscusso". Bayesiano o no, il tempo è atteso da tempo per sfidare questo standard metrico o almeno dargli lo scetticismo che merita.

Detto questo, la mia interpretazione del punto di Gelman è che, come è noto, il processo di revisione tra pari premia il significato statistico positivo e punisce i risultati insignificanti non pubblicando quei documenti. Questo indipendentemente dal fatto che pubblicare o meno un risultato insignificante avrebbe un impatto potenzialmente grande sul pensiero e sulla teoria per un determinato dominio. Gelman, Simonshohn e altri hanno ripetutamente sottolineato l'abuso del livello di significatività 0,05 nella ricerca peer-reviewed e pubblicato, mostrando esempi di risultati ridicoli, ma statisticamente significativi nella ricerca paranormale, sociale e psicologica. Uno dei più eclatanti fu la constatazione statisticamente significativa che le donne incinte avevano maggiori probabilità di indossare abiti rossi. Gelman sostiene che, in assenza di sfide logiche ai risultati statistici,spiegazione potenzialmente insignificante. Qui si sta riferendo al rischio professionale del settore con argomentazioni eccessivamente tecniche e astruse che fanno poco o niente per far avanzare un dibattito tra un pubblico laico.

Questo è un punto che Gary King fa con veemenza quando praticamente implora scienziati politici quantitativi (e, per estensione, tutti i quants) a fermare reportage meccanici e tecnici come "questo risultato è stato significativo a un livello <= 0,05" e si avvicina a interpretazioni più sostanziali . Ecco una citazione da un suo articolo,

(1) trasmettere stime numericamente precise delle quantità di maggiore interesse sostanziale, (2) includere ragionevoli misure di incertezza su tali stime e (3) richiedere conoscenze scarse per comprendere. La seguente semplice dichiarazione soddisfa i nostri criteri: "A parità di altre condizioni, un ulteriore anno di istruzione aumenterebbe il reddito annuo di 1.500 dollari in media, più o meno circa 500 dollari". Qualsiasi studente di scuola superiore intelligente capirà quella frase, non importa quanto sia sofisticato il modello statistico e potente che i computer usavano per produrla.

Il punto di King è ben preso e traccia la direzione che il dibattito deve prendere.

Valorizzare le analisi statistiche: migliorare l'interpretazione e la presentazione , King, Tomz e Wittenberg, 2002, Am Jour di Poli Sci .


2
+1 Grazie per questo contributo leggibile, informativo e ponderato alla discussione.
whuber

@whuber Grazie per le belle parole. Il tempo dirà se gli altri partecipanti sono d'accordo o no.
Mike Hunter,

2
Potrei essere illuso, ma mi piace pensare che alcuni (se non la maggior parte) dei nostri elettori attivi non votano sulla base di un accordo o di un disaccordo, ma sul fatto che un post risponda alla domanda originale in modo chiaro e autorevole . Dopotutto, il testo al passaggio del mouse sopra l'icona di votazione dice "Questa risposta è utile", non "Sono d'accordo con questo ragazzo". (Questo non deve essere confuso con il voto sul nostro sito meta, che non significano grado di accordo.) Alcune evidenze per questa impressione è prestata dai numerosi distintivi sportività assegnati.
whuber

@Whuber La sfumatura che fai notare è debitamente annotata.
Mike Hunter,

@whuber questa discussione è stata la fonte del mio uso della parola illusa nella nostra chat l'altro giorno.
Mike Hunter,

5

Ecco alcuni dei miei pensieri riguardo alla domanda 3 dopo aver letto tutti i commenti e le risposte perspicaci.

Forse una guida pratica nell'analisi statistica per evitare l'hacking del valore p è quella di guardare invece alla dimensione dell'effetto significativo / significativo scientificamente (o, biologicamente, clinicamente, ecc.).

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

Inoltre, per evitare di utilizzare dimensioni del campione troppo grandi per rilevare l'effetto, è necessario tenere conto anche delle dimensioni del campione richieste. Cioè, dovremmo mettere un vincolo sulla dimensione massima del campione utilizzata per l'esperimento.

Per riassumere,

  1. Abbiamo bisogno di predefinire una soglia per la dimensione significativa dell'effetto per dichiarare il significato;
  2. Dobbiamo predefinire una soglia per la dimensione del campione utilizzata nell'esperimento per quantificare quanto sia rilevabile la dimensione significativa dell'effetto;

Con quanto sopra, forse possiamo quindi evitare un effetto "significativo" minore rivendicato da un'enorme dimensione del campione.


[Aggiornamento del 09/06/2015]

Per quanto riguarda la domanda 3, ecco alcuni suggerimenti basati sul recente documento dalla natura: "Il valore volubile di P genera risultati irreprensibili", come ho detto nella parte Domanda.

  1. Riporta le stime della dimensione dell'effetto e la loro precisione, ovvero l'intervallo di confidenza del 95%, poiché quelle informazioni più informative rispondono esattamente a domande come quanto grande è la differenza o quanto forte è la relazione o l'associazione;
  2. Inserire le stime sulla dimensione dell'effetto e gli IC al 95% nel contesto di specifici studi / domande scientifiche e concentrarsi sulla loro rilevanza nel rispondere a tali domande e scartare il valore P volubile;
  3. Sostituire l'analisi di potenza con " pianificazione della precisione " per determinare la dimensione del campione richiesta per stimare la dimensione dell'effetto per raggiungere un determinato grado di precisione.

[Fine aggiornamento 09/06/2015]


4
H0:θ=δ

@AndyW, grazie per i commenti. Ho modificato la mia risposta di conseguenza. Sembrerebbe un'opzione migliore?
Aaron Zeng,

2
+1 per il riferimento a quell'articolo Natura. Contiene alcune sorprendenti informazioni sbagliate, come l'interpretazione bayesiana (senza preavviso) dei valori p: "Ad esempio, se uno studio ottiene P = 0,03, c'è una probabilità del 90% che uno studio replicato restituisca un valore P da qualche parte tra l'ampio intervallo di 0-0,6 (intervalli di predizione del 90%), mentre le probabilità di P <0,05 è solo del 56%. " Mi chiedo quale distribuzione preventiva gli autori stiano assumendo - e perché è anche rilevante?
whuber

@AndyW e Aaron Zeng, ancora meglio è combinare i risultati di entrambi i test per differenza e i test per equivalenza. In questo modo, si collocano esplicitamente la dimensione dell'effetto rilevante e il potere statistico nelle conclusioni tratte (vedere la sezione sui test di pertinenza).
Alexis,

3

P(D|H0)αH0H0

  1. Implica che 1/20 risultati possano rifiutare il null quando non dovrebbero. Se la scienza basasse la sua conclusione su singoli esperimenti, l'affermazione sarebbe difendibile. Altrimenti, se gli esperimenti fossero ripetibili, ciò implicherebbe che il 19/20 non verrebbe respinto. La morale della storia è che gli esperimenti dovrebbero essere ripetibili.

  2. La scienza è una tradizione fondata sull'oggettività, quindi la "probabilità oggettiva" fa appello naturalmente. Ricordiamo che si suppone che gli esperimenti dimostrino un alto grado di controllo che spesso impiega la progettazione a blocchi e la randomizzazione per controllare fattori al di fuori dello studio. Pertanto, il confronto con il caso ha un senso perché tutti gli altri fattori dovrebbero essere controllati tranne quelli studiati. Queste tecniche ebbero molto successo nell'agricoltura e nell'industria prima di essere portate alla scienza.

  3. Non sono sicuro che la mancanza di informazioni sia mai stata davvero il problema. È da notare che per molti nelle scienze non matematiche la statistica è solo una casella da spuntare.

  4. Suggerirei una lettura generale sulla teoria delle decisioni che unisce i due quadri. Si tratta semplicemente di utilizzare quante più informazioni hai. Le statistiche del frequentista ipotizzano che i parametri nei modelli abbiano valori sconosciuti da distribuzioni fisse. I bayesiani assumono che i parametri nei modelli provengano da distribuzioni condizionate da ciò che sappiamo. Se ci sono abbastanza informazioni per formare un'informazione precedente e sufficienti per aggiornarla a un posteriore accurato, allora è fantastico. In caso contrario, potresti ottenere risultati peggiori.


1

Riproducibilità dei risultati dei test statistici

Questo è un esercizio breve e semplice per valutare la riproducibilità delle decisioni sulla base di test statistici.

Considera un'ipotesi nulla H0 con un insieme di ipotesi alternative contenenti H1 e H2. Impostare la procedura di test dell'ipotesi statistica a un livello di significatività di 0,05 per avere una potenza di 0,8, se H1 è vero. Supponiamo inoltre che la potenza di H2 sia 0,5. Per valutare la riproducibilità del risultato del test, si considera l'esperimento di eseguire la procedura di test due volte. A partire dalla situazione, in cui H0 è vera, le probabilità per i risultati dell'esperimento congiunto sono visualizzate nella Tabella 1. La probabilità di non riuscire a riprodurre le decisioni è 0,095.

Tabella 1. Frequenze, se H0 è vero

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

Le frequenze cambiano quando cambia il vero stato della natura. Supponendo che H1 sia vero, H0 può essere rifiutato come progettato con una potenza di 0,8. Le frequenze risultanti per i diversi risultati dell'esperimento congiunto sono visualizzate nella Tabella 2. La probabilità di non essere in grado di riprodurre le decisioni è 0,32.

Tabella 2. Frequenze, se H1 è vero

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

Supponendo che H2 sia vero, H0 verrà respinto con una probabilità di 0,5. Le frequenze risultanti per i diversi risultati dell'esperimento congiunto sono visualizzate nella Tabella 3. La probabilità di non riuscire a riprodurre le decisioni è 0,5.

Tabella 3. Frequenze, se H2 è vero

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

La procedura di test è stata progettata per controllare gli errori di tipo I (il rifiuto dell'ipotesi nulla anche se è vero) con una probabilità di 0,05 e limitare gli errori di tipo II (nessun rifiuto dell'ipotesi nulla anche se è sbagliato e H1 è vero) a 0,2. Per entrambi i casi, con H0 o H1 ritenuti veri, ciò porta a frequenze non trascurabili, rispettivamente 0,095 e 0,32, di decisioni "non riproducibili", "contraddittorie", se lo stesso esperimento viene ripetuto due volte. La situazione peggiora con una frequenza fino a 0,5 per decisioni "non riproducibili", "contraddittorie", se il vero stato della natura è compreso tra l'ipotesi nulla e alternativa utilizzata per progettare l'esperimento.

La situazione può anche migliorare: se gli errori di tipo 1 sono controllati più rigorosamente o se il vero stato della natura è lontano dal nulla, il che si traduce in un potere di rifiuto del valore vicino a 1.

Pertanto, se desideri decisioni più riproducibili, aumenta il livello di significatività e la potenza dei tuoi test. Non molto sorprendente ...


(+1) Ma non puoi impostare il valore p al 5% prima dell'esperimento. Pensa che intendi "livello di significatività".
Scortchi - Ripristina Monica

Grazie. Stessa cosa nell'ultima frase: "diminuisci i livelli di significatività e aumenta la potenza"
Scortchi - Ripristina Monica

Penso che il problema più grande con i valori di p sia che le persone li confondano con un significato sostanziale. Quindi se p <.05 significa che la dimensione dell'effetto scoperto è abbastanza grande da importare. Mi viene chiesto al lavoro di generare effetti [sostanzialmente] significativi generando valori p.
user54285
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.