Come dovrebbe un singolo ricercatore pensare al falso tasso di scoperta?


30

Ho cercato di capire come il False Discovery Rate (FDR) dovrebbe informare le conclusioni del singolo ricercatore. Ad esempio, se il tuo studio è sottodimensionato, dovresti scartare i risultati anche se sono significativi a α=.05 ? Nota: sto parlando della FDR nel contesto dell'esame dei risultati di più studi in forma aggregata, non come metodo per correzioni di più test.

Partendo dal presupposto (forse generoso) che .5 delle ipotesi testate siano effettivamente vere, l'FDR è una funzione dei tassi di errore sia di tipo I che di tipo II come segue:

FDR=αα+1-β.

È ovvio che se uno studio è sufficientemente sottodimensionato , non dovremmo fidarci dei risultati, anche se significativi, come faremmo con quelli di uno studio adeguatamente potenziato. Quindi, come direbbero alcuni statistici , ci sono circostanze in cui, "a lungo termine", potremmo pubblicare molti risultati significativi che sono falsi se seguiamo le linee guida tradizionali. Se un corpo di ricerca è caratterizzato da studi costantemente sottodimensionati (ad esempio, il gene candidato letteratura sull'interazione ambientale del decennio precedente ), anche risultati significativi replicati possono essere sospetti.×

Applicando i pacchetti R extrafont, ggplot2e xkcd, credo che questo potrebbe essere utilmente concettualizzato come un problema di prospettiva: Un risultato significativo ...

Non sono così sicuro ...

Date queste informazioni, cosa dovrebbe fare un singolo ricercatore dopo ? Se ho un'idea di quale dovrebbe essere la dimensione dell'effetto che sto studiando (e quindi una stima di , date le dimensioni del mio campione), dovrei regolare il mio livello fino a quando il FDR = .05? Devo pubblicare risultati a livello di alfa = 0,05 anche se i miei studi sono scarsi e lasciano la considerazione della FDR ai consumatori della letteratura?1-βαα=.05

So che questo è un argomento che è stato discusso frequentemente, sia su questo sito che nella letteratura statistica, ma non riesco a trovare un consenso di opinione su questo argomento.


EDIT: in risposta al commento di @ amoeba, l'FDR può essere derivato dalla tabella standard di contingenza del tasso di errore di tipo I / tipo II (scusate la sua bruttezza):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Quindi, se ci viene presentato un risultato significativo (colonna 1), la possibilità che sia falso in realtà è alfa sulla somma della colonna.

Sì, possiamo modificare la nostra definizione di FDR per riflettere la (precedente) probabilità che una determinata ipotesi sia vera, sebbene il potere di studio svolga ancora un ruolo:(1-β)

FDR=α(1-precedente)α(1-precedente)+(1-β)precedente

Potrebbe non darti una risposta definitiva alla tua domanda, ma potresti trovare ispirazione in questo testo.
JohnRos,

1
L'articolo di David Colquhoun a cui ti colleghi, è stato recentemente discusso qui (con @DavidColquhoun che si unisce alla discussione), potresti essere interessato a dare un'occhiata.
ameba dice Reinstate Monica il

2
Da dove viene la formula per FDR in termini di e β ? Forse sono stupido, ma non riesco a capire perché dovrebbe essere vero. Mi aspetto che la FDR dipenda dalla prevalenza dei nulli nella popolazione degli studi, che non sembra entrare nella tua formula. Sono confuso. αβ
ameba dice Ripristina Monica il

2
Bene, va bene, dovrei riprenderlo: la tua formula originale è corretta nel caso speciale quando la probabilità precedente . In realtà l'avevi scritto per tutto il tempo, ma non me ne sono accorto; spiacente. Inoltre, hai ragione nel dire che per ogni dato p (a parte p = 0 , o il tuo precedente = 1 ), FDR crescerà con potenza decrescente raggiungendo 1 a potenza zero. Quindi la tua domanda ha un senso, +1. p=0.5pp=0prior=11
ameba dice di reintegrare Monica il

1
α

Risposte:


6

p

Invece, è importante avere tutti gli studi accessibili, trascurando i livelli di potenza o risultati significativi. In effetti, la cattiva abitudine di pubblicare solo risultati significativi e celati non significativi porta a parzialità della pubblicazione e corrompe la documentazione generale dei risultati scientifici.

Quindi il singolo ricercatore dovrebbe condurre uno studio in modo riproducibile, conservare tutti i registri e registrare tutte le procedure sperimentali anche se tali dettagli non vengono richiesti dalle riviste editoriali. Non dovrebbe preoccuparsi troppo della bassa potenza. Anche un risultato non informativo (= ipotesi nulla non respinta) aggiungerebbe più stimatori per ulteriori studi, purché si possa permettersi una qualità sufficiente dei dati stessi.

ppp


Horst, sembra che tu stia rispondendo a una domanda diversa da quella che è stata posta.
Alexis,

1
Si noti che la domanda riguarda la FDR tra gli studi, non all'interno. Ciò comporta un qualche tipo di approccio bayesiano al fine di avere un tasso complessivo accettabile di decisioni corrette. La mia risposta sottolinea che un giudizio complessivo viene piuttosto fatto aggregando i dati e le stime degli studi, non le decisioni, quindi il problema si risolve creando un enorme "studio virtuale", purché i dati (non le decisioni) dei singoli studi siano affidabili.
Horst Grünbusch,

6

αα=.05

α

p<0.05p0.05pp0.05p-value sarebbe di nuovo minuscolo).

α


5

Questa è in realtà una profonda domanda filosofica. Anch'io sono un ricercatore e ci ho pensato un po '. Ma prima di una risposta, esaminiamo esattamente qual è il tasso di falsa scoperta.

FDR contro P P è semplicemente una misura della probabilità di dire che c'è una differenza, quando non c'è alcuna differenza e non tiene conto del potere. L'FDR, d'altra parte, tiene conto del potere. Tuttavia, al fine di calcolare la FDR, dobbiamo fare un presupposto: qual è la probabilità che riceviamo un risultato positivo vero? È qualcosa a cui non avremo mai accesso, tranne in circostanze altamente inventate. Ne ho parlato recentemente durante un seminario che ho tenuto. Puoi trovare le diapositive qui .

Qui è una figura da David Colquhoun carta sul tema:

Calquhoun 2014

Il tasso di riscontro falso viene calcolato dividendo il numero di falsi positivi per la somma dei veri positivi e dei falsi positivi (nell'esempio, 495 / (80 + 495) x 100% = 86%!

Un po 'di più su P

Dai un'occhiata da vicino alle diapositive della mia lezione. Ho discusso del fatto che i valori di P sono tratti da una distribuzione. Ciò significa che ci sarà sempre la possibilità di trovare un falso positivo. Quindi il significato statistico non dovrebbe essere considerato come verità assoluta. Io sostengo che qualcosa che è statisticamente significativo dovrebbe essere interpretato come "Ehi, potrebbe esserci qualcosa di interessante qui, non sono sicuro, qualcuno faccia un doppio controllo!" Quindi, la nozione fondamentale di riproducibilità nella ricerca!

Quindi cosa facciamo? Bene, un punto interessante sulla figura sopra e la mia analisi di P e FDR è che l'unico modo in cui possiamo mai ottenere una chiara comprensione è attraverso 1) riproducibilità e 2) pubblicare tutti i risultati. Ciò include risultati negativi (anche se i risultati negativi sono difficili da interpretare). Tuttavia, le conclusioni che traggiamo dai nostri risultati devono essere appropriate. Sfortunatamente, molti lettori e ricercatori non comprendono appieno le nozioni di P e FDR. Credo che sia responsabilità dei lettori analizzare adeguatamente i risultati ... il che significa che l'onere è in definitiva a carico degli educatori. Dopotutto, un valore P di 0,000000001 non ha senso se la "prevalenza" (vedere la figura sopra) è 0 (in tal caso, il tasso di rilevamento falso sarebbe del 100%).

Come ricercatore editoriale, fai solo attenzione a comprendere appieno i tuoi risultati e a fare affermazioni solo quanto desideri. Se si scopre che il FDR per il tuo studio particolare è dell'86% (come nell'esempio sopra), allora dovresti stare molto attento alle tue interpretazioni. D'altra parte, se l'FDR è abbastanza piccolo per il tuo comfort .... fai ancora attenzione alle tue interpretazioni.

Spero che tutto qui sia chiaro. È un concetto molto importante e sono contento che tu abbia sollevato la discussione. Fammi sapere se hai domande / dubbi / ecc.


1
@Alexis Non esiste uno studio sopraffatto! Finché si nota la dimensione dell'effetto, non ci può essere nulla di male nel poter definire la dimensione dell'effetto più da vicino facendo uno studio con una dimensione del campione più grande. La nozione di "sopraffatto" mi sembra legata alla nozione vuota secondo cui si possono fare inferenze utili osservando un valore P senza guardare i dati osservati.
Michael Lew

1
@MichaelLew: Hai ragione sul fatto che il problema della sopraffazione potrebbe essere (parzialmente) risolto se consideri sempre la dimensione stimata dell'effetto insieme al valore p. Tuttavia, ciò vanifica un po 'lo scopo dei valori p: Mappare lo stimatore di effetti ai risultati del test binario "effetto presente / non presente" in modo tale che il tasso di errore di tipo I sia cooretto. Inoltre, il tuo giudizio su quale possa essere la dimensione di un effetto rilevante può cambiare quando vedi il valore p. Quindi, in effetti, è meglio risolvere il problema prespecificando in anticipo un intervallo di effetti rilevante e successivamente confrontarlo con lo studio di CI, come suggerito da Alexis.
Horst Grünbusch,

1
θ

1
In un certo senso ... stavo parlando rigorosamente in termini di inferenza statistica , mentre tu parli di più della logica del disegno dello studio e di un'ontologia della produzione di conoscenza scientifica. Detto questo, ritengo che i risultati positivi che non vengono interpretati con altrettanti protocolli di assistenza, ecc. Abbiano la stessa probabilità di essere falsi quanto i risultati negativi. Non tutti i fenomeni dell'universo sono suscettibili di studio in isolamento (ad es. La salute sia individuale che della popolazione è contemporaneamente chimica, sociale, comportamentale, ecc.), Quindi le incertezze ontologiche devono accompagnare gli studi di sistemi così complessi.
Alexis,

2
@ HorstGrünbusch Non vedo la domanda originale come ambientata in un contesto ibrido in quanto si occupa di valori alfa e beta, non di valori P. Tuttavia, la risposta di justanotherbrain avrebbe certamente bisogno di un'attenta rielaborazione per inserirla esclusivamente nel framework Neyman & Pearson o nel framework dei test di significatività. I falsi tassi di scoperta appartengono davvero solo al primo.
Michael Lew,

3

Per aiutare a comprendere le relazioni, ho creato questo grafico di FDR in funzione della probabilità precedente per vari poteri (con alfa = 0,05). Nota questo grafico e l'equazione di @Buckminster calcola l'FDR per tutti i risultati con P minore di alfa. Il grafico apparirebbe diverso se si considerassero solo i valori P molto vicini al valore P che si è osservato in uno studio.


2
ed ecco una versione dell'app Shiny (un po 'diversa però): buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border

1

Suggerire la pubblicazione è una decisione. Penso che valga la pena studiare quali sono i benefici e i costi associati a questa decisione.

1) L'ambiente accademico spinge universalmente i ricercatori a pubblicare di più, ritenendo che varie classifiche di pubblicazioni influenzeranno anche questo record. Possiamo presumere che riviste più prestigiose possano avere controlli di qualità più solidi (lo spero).

2) Potrebbero esserci costi sociali associati alla produzione troppo ampia di pubblicazioni. Queste risorse potrebbero essere utilizzate meglio altrove, come nella ricerca applicata senza pubblicazioni di risultati. Recentemente è stata pubblicata una pubblicazione in cui molte pubblicazioni non sono importanti come fonti poiché la quantità di nuove pubblicazioni è così grande ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Per il singolo ricercatore numero uno costringe a pubblicare di più e penso che dovrebbero esserci controlli di qualità istituzionalizzati che non dipendono dai singoli popoli per mantenere la qualità a livello accettato.

In ogni caso i valori dei tuoi parametri non sono fatti, questi devono essere dati prendendo in considerazione vari costi e benefici associati al numero di risultati pubblicati quando i risultati sono realmente e / o falsamente significativi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.