Perché 0,05 <p <0,95 risultati sono chiamati falsi positivi?


9

Modifica: la base della mia domanda è imperfetta e ho bisogno di dedicare un po 'di tempo a capire se può anche avere un senso.

Modifica 2: Chiarire che riconosco che un valore p non è una misura diretta della probabilità di un'ipotesi nulla, ma suppongo che più un valore p è vicino a 1, più è probabile che un'ipotesi abbia è stato scelto per test sperimentali la cui corrispondente ipotesi nulla è vera, mentre più un valore p è vicino a 0, più è probabile che sia stata scelta un'ipotesi per test sperimentale la cui corrispondente ipotesi nulla è falsa. Non riesco a vedere come questo sia falso a meno che l'insieme di tutte le ipotesi (o tutte le ipotesi selezionate per gli esperimenti) sia in qualche modo patologico.

Modifica 3: Penso che non sto ancora usando una terminologia chiara per porre la mia domanda. Man mano che i numeri della lotteria vengono letti e li abbini al biglietto uno a uno, qualcosa cambia. La probabilità che hai vinto non cambia, ma cambia la probabilità che tu possa spegnere la radio. C'è un cambiamento simile che accade quando gli esperimenti sono fatti, ma ho la sensazione che la terminologia che sto usando - "i valori p cambiano la probabilità che sia stata scelta una vera ipotesi" - non è la terminologia corretta.

Modifica 4: ho ricevuto due risposte incredibilmente dettagliate e istruttive che contengono una grande quantità di informazioni che mi consentono di elaborare. Li voterò entrambi adesso e poi torno ad accettarne uno quando ho imparato abbastanza da entrambe le risposte per sapere che hanno risposto o invalidato la mia domanda. Questa domanda ha aperto una lattina di vermi molto più grande di quella che mi aspettavo di mangiare.

In articoli che ho letto, ho visto risultati con p> 0,05 dopo la convalida chiamata "falsi positivi". Tuttavia, non è ancora più probabile che io abbia scelto un'ipotesi da verificare con un'ipotesi nulla corrispondente falsa quando i dati sperimentali hanno un p <0,50 che è basso ma> 0,05 e non sono entrambi l'ipotesi nulla e l'ipotesi della ricerca statisticamente incerta / insignificante (dato il convenzionale limite di significatività statistica) ovunque tra 0,05 <p < 0,95 qualunque sia l'inverso di p <0,05, data l'asimmetria evidenziata nel link di @ NickStauner ?

Chiamiamo quel numero A, e definiscilo come il valore p che dice la stessa cosa sulla probabilità che tu abbia scelto una vera ipotesi nulla per il tuo esperimento / analisi che un valore p di 0,05 dice sulla probabilità che tu ' ho scelto una vera ipotesi non nulla per il tuo esperimento / analisi. 0,05 <p <A dice semplicemente "La dimensione del tuo campione non era abbastanza grande per rispondere alla domanda e non sarai in grado di giudicare il significato dell'applicazione / del mondo reale fino a quando non otterrai un campione più grande e otterrai le tue statistiche significato risolto "?

In altre parole, non dovrebbe essere corretto chiamare un risultato decisamente falso (piuttosto che semplicemente non supportato) se e solo se p> A?

Mi sembra semplice, ma un uso così diffuso mi dice che potrei sbagliarmi. Sono:

a) interpretare erroneamente la matematica,
b) lamentarsi di una convenzione innocua se non esattamente corretta,
c) completamente corretta o
d) altro?

Riconosco che questo suona come una richiesta di opinioni, ma sembra una domanda con una risposta matematicamente corretta (una volta impostato un limite di significatività) che io o (quasi) tutti gli altri stiamo sbagliando.


1
Ciao David. Ecco l'articolo che mi ha fatto riflettere: link
Andrew Klaassen,

2
Nella prima riga non intendi invece scrivere "... risultati originariamente con ma successivamente con dopo la convalida ..."? Un risultato con maggiore della soglia altrimenti viene definito un risultato negativo . Anche dopo le tue modifiche, la tua caratterizzazione dell'interpretazione di è errata, quindi vorrei suggerirti di dedicare qualche istante a rivedere alcuni dei nostri post sull'interpretazione dei valori di p e riconsiderare ciò che vuoi chiedere. p<0.05p α pp0.05pαp
whuber

1
Puoi eliminare la tua domanda se lo desideri, ma dato che hai ricevuto due voti positivi (oh diamine, facciamolo 3), una risposta votata, e sto per ricevere un'altra risposta da "la tua vera", ti chiedo di lasciarla attivo e lavora su di esso come ritieni opportuno, sebbene io rispetti rispettosamente il tuo diritto di fare ciò che desideri. Saluti!
Nick Stauner,

1
Sono d'accordo con @Nick, Andrew: qui hai una domanda convincente e provocatoria che ha attirato un po 'di pensiero e attenzione, quindi ti saremmo molto grati se lo tenessi pubblicato e, se puoi, perfezionalo un po' per concentrarti sul questione chiave relativa all'interpretazione dei valori p. La parte del romanzo, da quello che posso dire, è il suggerimento che il criterio di rifiuto dovrebbe essere basato su un grande valore p. Per quanto riguarda il tuo commento: si verifica un falso positivo quando il test è significativo ma è noto che l'ipotesi nulla è vera.
whuber

1
@whuber: L'attenzione di fondo più convincente per me è su quale risultato suggerirebbe che un esperimento di follow-up con una dimensione del campione più grande sarà probabilmente produttivo. Date le risposte finora, mi sembra di dover chiedere se i valori di p potrebbero anche essere correlati a quella domanda. Riconoscendo che l'ipotesi nulla è vera come la misura di un falso positivo: quando si direbbe che un'ipotesi nulla è vera al di fuori della situazione p> (1 - α)?
Andrew Klaassen,

Risposte:


15

La tua domanda si basa su una premessa errata:

l'ipotesi nulla è ancora più probabile che non essere sbagliata quando p <0,50

Un valore p non è una probabilità che l'ipotesi nulla sia vera. Ad esempio, se hai preso un migliaio di casi in cui l'ipotesi nulla è vera, metà di essi avrà p < .5. Quelle metà saranno tutte nulle.

In effetti, l'idea che p > .95significa che l'ipotesi nulla è "probabilmente vera" è ugualmente fuorviante. Se l'ipotesi nulla è vera, la probabilità p > .95è esattamente uguale alla probabilità che p < .05.

ETA: la tua modifica chiarisce qual è il problema: hai ancora il problema sopra (che stai trattando un valore p come una probabilità posteriore, quando non lo è). È importante notare che questa non è una sottile distinzione filosofica (come penso che tu stia insinuando nella tua discussione dei biglietti della lotteria): ha enormi implicazioni pratiche per qualsiasi interpretazione dei valori-p.

Ma v'è una trasformazione che è possibile eseguire su valori di p che vi porterà a quello che stai cercando, e si chiama il tasso di scoperta falsa locale. (Come descritto da questo bel documento , è l'equivalente frequentatore della "probabilità di errore posteriore", quindi pensaci in questo modo se vuoi).

Lavoriamo con un esempio concreto. Supponiamo che tu stia eseguendo un test t per determinare se un campione di 10 numeri (da una distribuzione normale) ha una media di 0 (un test t per un campione, a due facciate). Innanzitutto, vediamo come appare la distribuzione del valore p quando la media è effettivamente zero, con una breve simulazione R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

inserisci qui la descrizione dell'immagine

Come possiamo vedere, i valori p nulli hanno una distribuzione uniforme (ugualmente probabile in tutti i punti compresi tra 0 e 1). Questa è una condizione necessaria dei valori di p: infatti, è esattamente ciò che significano i valori di p! (Dato che il valore nullo è vero, esiste una probabilità del 5% che sia inferiore a .05, una probabilità del 10% che sia inferiore a .1 ...)

Consideriamo ora le ipotesi alternative - casi in cui il null è falso. Ora, questo è un po 'più complicato: quando il null è falso, "quanto è falso"? La media del campione non è 0, ma è 0,5? 1? 10? Varia in modo casuale, a volte piccolo e a volte grande? Per semplicità, supponiamo che sia sempre uguale a 0,5 (ma ricorda quella complicazione, sarà importante in seguito):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

inserisci qui la descrizione dell'immagine

Si noti che la distribuzione non è ora uniforme: è spostata verso 0! Nel tuo commento menzioni una "asimmetria" che fornisce informazioni: questa è tale asimmetria.

Quindi immagina di conoscere entrambe queste distribuzioni, ma stai lavorando con un nuovo esperimento e hai anche un precedente che esiste una probabilità del 50% che sia nulla e il 50% che sia alternativa. Ottieni un valore p di .7. Come puoi ottenere da quello e dal valore p una probabilità?

Quello che dovresti fare è confrontare le densità :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

E guarda il tuo valore p:

abline(v=.7, col="red", lty=2)

inserisci qui la descrizione dell'immagine

Tale rapporto tra la densità nulla e la densità alternativa può essere utilizzato per calcolare il tasso di rilevamento di falsi locali : maggiore è il valore nullo rispetto all'alternativa, maggiore è il FDR locale. Questa è la probabilità che l'ipotesi sia nulla (tecnicamente ha un'interpretazione più frequente da parte del frequentatore, ma la terremo semplice qui). Se quel valore è molto alto, allora puoi fare l'interpretazione "l'ipotesi nulla è quasi certamente vera". In effetti, puoi creare una soglia di 0,05 e 0,95 del FDR locale: questo avrebbe le proprietà che stai cercando. (E poiché la FDR locale aumenta monotonicamente con il valore p, almeno se lo stai facendo bene, questi si tradurranno in alcune soglie A e B dove puoi dire "

Ora, posso già sentirti chiedere "allora perché non lo usiamo al posto dei valori p?" Due motivi:

  1. È necessario decidere su una probabilità precedente che il test sia nullo
  2. Devi conoscere la densità in alternativa. Questo è molto difficile da indovinare, perché è necessario determinare quanto possono essere grandi le dimensioni e le variazioni degli effetti e quanto spesso lo sono!

Non è necessario nessuno di questi per un test del valore p e un test del valore p consente comunque di evitare falsi positivi (che è il suo scopo principale). Ora, è possibile stimare entrambi questi valori in più test di ipotesi, quando si hanno migliaia di valori p (come un test per ciascuna delle migliaia di geni: vedere questo documento o questo documento per esempio), ma non quando si stai facendo un singolo test.

Infine, potresti dire "Il documento non è ancora sbagliato nel dire che una replica che porta a un valore di p superiore a 0,05 è necessariamente un falso positivo?" Bene, mentre è vero che ottenere un valore p di .04 e un altro valore p di .06 non significa davvero che il risultato originale sia stato sbagliato, in pratica è una metrica ragionevole da scegliere. Ma in ogni caso, potresti essere felice di sapere che gli altri hanno dei loro dubbi al riguardo! Il documento a cui ti riferisci è in qualche modo controverso nelle statistiche: questo documento utilizza un metodo diverso e giunge a una conclusione molto diversa sui valori p della ricerca medica, e quindi quello studio è stato criticato da alcuni importanti bayesiani (e va e viene ...). Quindi, mentre la tua domanda si basa su alcune presunzioni errate sui valori di p, penso che esamini un'ipotesi interessante da parte del documento che citi.


Ciao David. Punto valido. Lavorerò per riformulare la mia domanda per non sbagliare quella parte e vedere se vedo ancora un problema.
Andrew Klaassen,

@David_Robinson: sarebbe corretto utilizzare il valore p come tasso di falsi allarmi nella regola bayesiana e trarre conclusioni sulla probabilità della ricerca e / o ipotesi nulle da ciò? Impostare il precedente al 50% e giocare veloce e sciolto da lì? :-)
Andrew Klaassen,

1
Sì, affascinante! Puoi inserirlo nella tua risposta? Ma c'è un'asimmetria tra il comportamento di p quando null è vero rispetto a quando è falso che ~ deve ~ fornire alcune informazioni sulla probabilità che l'ipotesi nulla sia vera in base al valore p estratto dai dati. Se una vera ipotesi nulla produce valori p distribuiti uniformemente e una vera ipotesi non nulla produce valori p che sono inclinati verso 0, estrarre ap = 0,01 marmo ~ deve ~ suggerire che è più probabile che tu abbia scelto il non -nulla barattolo di esperimenti, anche se la probabilità non viene modificata facendo l'esperimento.
Andrew Klaassen,

1
@AndrewKlaassen: potresti essere interessato al concetto di "tasso di rilevamento di falsi locali". È un frequentista equivalente alla probabilità posteriore bayesiana che il nulla sia vero. Richiede due cose: a) una precedente probabilità che il nulla sia vero (a volte chiamato pi0) eb) una stima della densità per l'ipotesi alternativa. Nel test di ipotesi multiple (se avevi migliaia di valori p), è possibile stimare entrambi osservando la densità. Se avessi un po 'più di tempo, potrei creare una spiegazione più profonda nella mia risposta.
David Robinson,

1
@AndrewKlaassen: vedi la mia modifica, in cui spiego in dettaglio FDR locale, perché è il modo di calcolare il valore "A" (anche se potresti voler cambiare .05 mentre stai calcolando A), e anche perché viene usato raramente . Ad ogni modo, per chiarire un punto che non si adatta davvero alla risposta: il tuo esempio con il biglietto della lotteria fraintende il punto che io e altri abbiamo sollevato. Non ci stavamo bloccando sull'idea di "cambiare le probabilità con nuove informazioni" (sia i bayesiani che i frequentisti ne hanno interpretato): il punto è che non le stavi cambiando nel modo giusto!
David Robinson,

10

p>.05p<.05p>.05ing (NHST). I fraintendimenti non sono rari nella letteratura di ricerca pubblicata, in quanto NHST è notoriamente contro-intuitivo. Questa è una delle grida di dell'invasione (che io sostengo, ma non seguo ... ancora). Ho lavorato con impressioni errate come queste da solo fino a poco tempo fa, quindi sono molto comprensivo.

pp ppp) , tra gli altri vantaggi, e mettendo da parte gli svantaggi discutibili. (Per essere onesti, vedi " Quali sono i contro dell'analisi bayesiana? " Hai anche commentato per citare articoli che potrebbero offrire alcune belle risposte lì: Moyé, 2008; Hurlbert & Lombardi, 2009. )

Probabilmente, l'ipotesi nulla come dichiarata letteralmente è spesso più probabile che non essere sbagliata, perché le ipotesi null sono più comunemente, letteralmente ipotesi di effetto zero . (Per alcuni utili contro-esempi, vedere le risposte a: " I set di dati di grandi dimensioni sono inappropriati per il test delle ipotesi? ") Problemi filosofici come l'effetto farfalla minacciano la letterale di tali ipotesi; quindi il nulla è utile più in generale come base di confronto per un'ipotesi alternativa di qualche effetto diverso da zero. Una simile ipotesi alternativa potrebbe rimanere più plausibile del nulla dopo che fossero stati raccolti dati che sarebbero stati improbabili se il null fosse vero. Quindi i ricercatori in genere deducono il supporto per un'ipotesi alternativa dall'evidenza contro il nulla, ma non è quello che quantificano direttamente ( Wagenmakers, 2007 ) .

Come sospetti, il è una funzione delle del , nonché delle dimensioni e della consistenza degli effetti. (Vedi la risposta di @ gung alla recente domanda " Come può un t-test essere statisticamente significativo se la differenza media è quasi 0? ") Le domande che spesso intendiamo porre ai nostri dati sono: "Qual è l'effetto di xon y? " Per vari motivi (tra cui, IMO, programmi educativi errati e altrimenti carenti nelle statistiche, specialmente come insegnati da non statistici), spesso ci troviamo invece a porre letteralmente la domanda vagamente correlata, "Qual è la probabilità di campionare casualmente dati come il mio da una popolazione in cui xnon influisceypp

.05<p<.95- un'altra delle sporche dozzine di Goodman (2008); ciò dipende molto di più dal significato dei dati, con cui la significatività statistica riguarda solo se stessa in misura limitata. Vedi la mia risposta a quanto sopra .

Non dovrebbe essere corretto chiamare un risultato decisamente falso (piuttosto che semplicemente non supportato) se ... p> 0,95?

Dato che i dati dovrebbero di solito rappresentare osservazioni empiricamente fattuali, non dovrebbero essere falsi; solo le inferenze su di loro dovrebbero affrontare questo rischio, idealmente. (L'errore di misurazione si verifica troppo ovviamente, ma quel problema esula in qualche modo dallo scopo di questa risposta, quindi a parte menzionarlo qui, lo lascerò solo in caso contrario.) Esiste sempre il rischio di fare un'inferenza falsa positiva sul fatto che il nulla sia meno utile dell'ipotesi alternativa, almeno a meno che l'inferrio non sappia che il nulla è vero. Solo nella circostanza piuttosto difficile da concepire della conoscenza che il nulla è letteralmente vero un'inferenza che favorisce un'ipotesi alternativa sarebbe sicuramente falsa ... almeno, per quanto posso immaginare al momento.

Chiaramente, l'uso o la convenzione diffusi non sono la migliore autorità sulla validità epistemica o inferenziale. Anche le risorse pubblicate sono fallibili; vedere per esempio Fallacia nella definizione del valore p . Il tuo riferimento ( Hurlbert & Lombardi, 2009 ) offre anche un'interessante esposizione di questo principio (pagina 322):

StatSoft (2007) si vanta sul loro sito Web che il loro manuale online "è l'unica risorsa Internet sulle statistiche raccomandate dall'enciclopedia Brittanica". Non è mai stato così importante "Diffidare dell'autorità", come dice l'adesivo per paraurti. [URL comicamente rotto convertito in testo con collegamento ipertestuale.]

ppSpero di poter convincere Michael a entrare in contatto qui taggandolo come ho fatto io (ma non sono sicuro che i tag utente inviano notifiche quando vengono modificati in - non penso che i tuoi nell'OP lo abbiano fatto). Potrebbe essere l'unico che può salvare Nuzzo - anche la natura stessa! Aiutaci Obi-Wan! (E perdonami se la mia risposta qui dimostra che non sono ancora riuscito a comprendere le implicazioni del tuo lavoro, che sono sicuro di avere in ogni caso ...) A proposito, Nuzzo offre anche qualche intrigante autodifesa e confutazione di "Problema 3" di Wagenmaakers: vedi la figura "Probabile causa" di Nuzzo e citazioni di supporto ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner e Greenberg, 2007 ) . Questi potrebbero contenere solo la risposta che

Ri: la tua domanda a scelta multipla, seleziono d. Potresti aver frainteso alcuni concetti qui, ma di certo non sei il solo se è così, e ti lascerò il giudizio, poiché solo tu sai cosa credi davvero. L'interpretazione errata implica un certo grado di certezza, mentre porre una domanda implica il contrario e quell'impulso a fare domande quando l'incertezza è abbastanza lodevole e tutt'altro che onnipresente, sfortunatamente. Questa questione della natura umana rende l'inesattezza delle nostre convenzioni tristemente innocua e merita lamentele come quelle qui citate. (Grazie in parte a te!) Tuttavia, anche la tua proposta non è completamente corretta.

pp, Nella migliore delle ipotesi sono un'autorità debole e accolgo con favore eventuali correzioni o elaborazioni che altri potrebbero offrire a ciò che ho detto qui. Tutto ciò che posso affermare in conclusione è che probabilmente c'è una risposta matematicamente corretta, e potrebbe anche essere che la maggior parte delle persone sbagli. La risposta giusta certamente non arriva facilmente, come dimostrano i seguenti riferimenti ...

pp

Riferimenti

- Goodman, SN (1992). Un commento su replica, valori p ed evidenze. Statistica in medicina, 11 (7), 875–879.
- Goodman, SN (2001). Of P -values ​​and Bayes: una proposta modesta. Epidemiologia, 12 (3), 295–297. Estratto da http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Una sporca dozzina: dodici idee sbagliate sul valore P. Seminari in ematologia, 45 (3), 135–140. Estratto da http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. e Greenberg, DA (2007). Non replica di studi di associazione: "pseudo-fallimenti" da replicare? Genetics in Medicine, 9 (6), 325–331. Estratto da http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH e Lombardi, CM (2009). Crollo finale del quadro teorico decisionale Neyman-Pearson e nascita del neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Estratto da http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). A P o no a P: Sulla natura probatoria dei valori di P e il loro posto nell'inferenza scientifica. arXiv: 1311.0081 [stat.ME]. Recuperato dahttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesiani negli studi clinici: addormentato al passaggio. Statistics in Medicine, 27 (4), 469–482.
- Nuzzo, R. (2014, 12 febbraio). Metodo scientifico: errori statistici. Nature News, 506 (7487). Estratto da http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Una soluzione pratica ai problemi pervasivi dei valori di p . Psychonomic Bulletin & Review, 14 (5), 779–804. Estratto da http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .


Sto ancora lavorando sulla tua risposta molto approfondita (grazie per questo), ma la tua menzione dell '"invasione bayesiana" mi ha fatto pensare a "Bayesiani in Clinical Trials: Asleep at the Switch", ristampato come capitolo 12 qui , che io' Mi sto anche avvolgendo lentamente la testa.
Andrew Klaassen,

"Hai raggiunto una pagina che non è disponibile per la visualizzazione o hai raggiunto il limite di visualizzazione per questo libro" ...?
Nick Stauner,

1
È un peccato. Se hai accesso al diario, puoi trovarlo anche qui . Una ricerca della frase "i bayesiani ora stanno abbattendo le barriere tradizionali negli studi clinici" potrebbe anche farti arrivare.
Andrew Klaassen,

1
Il crollo finale del quadro teorico decisionale Neyman-Pearson e l'ascesa del neoFisherian contengono anche una storia divertente di valori p e un attacco agli usi dell'analisi bayesiana nella ricerca. Non posso dire di averlo capito abbastanza bene per valutarlo, ma immagino che sia bene almeno essere consapevoli dei correttivi per gli attuali entusiasmi.
Andrew Klaassen,

1
@NickStauner Ho appena trovato questa discussione. Non è necessario che almeno un account sia errato se esiste un insieme di account in disaccordo. Possono essere basati su diversi modelli. [Se sei un gioco, dovresti leggere il libro di Bill Thompson The Nature of Statistical Evidence (2005).] Tuttavia, il mio account ha decisamente ragione ;-) (Anche se proprio stamattina rifiutato di nuovo da un diario.) Ho trovato l'articolo di Nuzzo su essere negligente e potenzialmente fuorviante.
Michael Lew,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.