Confusione con falso tasso di scoperta e test multipli (su Colquhoun 2014)


19

Ho letto questo fantastico articolo di David Colquhoun: un'indagine sul tasso di false scoperte e sull'errata interpretazione dei valori p (2014). In sostanza, spiega perché il tasso di rilevamento falso (FDR) può raggiungere il anche se controlliamo l'errore di tipo I con α = 0,05 .30%α=0.05

Tuttavia, sono ancora confuso su cosa succede se applico il controllo FDR in caso di test multipli.

Ad esempio, ho eseguito un test per ciascuna delle molte variabili e calcolato i valori usando la procedura Benjamini-Hochberg. Ho ottenuto una variabile significativa con q = 0,049 . Sto chiedendo qual è il FDR per questo risultato?qq=0,049

Posso tranquillamente supporre che a lungo termine, se eseguo tale analisi su base regolare, la FDR non è del , ma inferiore al 5 % , perché ho usato Benjamini-Hochberg? Questo sembra sbagliato, direi che il valore q corrisponde al valore p nel documento di Colquhoun e il suo ragionamento si applica anche qui, in modo che usando una soglia q di 0,05 rischi di " prendermi in giro " (come Colquhoun lo mette) nel 30 % dei casi. Tuttavia, ho provato a spiegarlo in modo più formale e ho fallito.30%5%qpq0.0530%


2
Ehi @ gennaio, mi chiedo perché dovresti offrire una taglia così grande (250) e poi non tornare mai più per premiarlo e / o controllare le risposte! Spero che tu stia bene.
ameba dice di reintegrare Monica il

3
Due manoscritti mi sono caduti addosso come una tonnellata di mattoni e me ne sono completamente dimenticato.
gennaio

Risposte:


15

Accade per caso che ho letto questo stesso articolo solo un paio di settimane fa. Colquhoun menziona paragoni multipli (incluso Benjamini-Hochberg) nella sezione 4 quando pone il problema, ma trovo che non chiarisca abbastanza il problema, quindi non sono sorpreso di vedere la tua confusione.

Il punto importante da capire è che Colquhoun sta parlando della situazione senza aggiustamenti di confronto multipli. Si può capire il documento di Colquhoun come l'adozione della prospettiva di un lettore: si chiede essenzialmente quale tasso di falsa scoperta (FDR) può aspettarsi quando legge la letteratura scientifica, e questo significa qual è il FDR atteso quando non sono stati fatti aggiustamenti multipli del confronto. Confronti multipli possono essere presi in considerazione quando si eseguono più test statistici in uno studio, ad esempio in un documento. Ma nessuno si adegua mai per confronti multipli tra documenti .

Se controlli effettivamente la FDR, ad esempio seguendo la procedura Benjamini-Hochberg (BH), allora sarà controllata. Il problema è che l'esecuzione della procedura BH separatamente in ogni studio, non garantisce il controllo complessivo della FDR.

Posso tranquillamente supporre che a lungo termine, se eseguo tale analisi su base regolare, la FDR non è del , ma inferiore al 5 % , perché ho usato Benjamini-Hochberg?30%5%

No. Se usi la procedura BH in ogni documento, ma indipendentemente in ciascuno dei tuoi documenti, puoi essenzialmente interpretare i tuoi valori regolati da BH come normali valori p , e ciò che Colquhoun dice ancora si applica.pp


Revisione generale

100%30%

Penso che il documento sia per lo più ragionevole, ma non mi piace che alcune affermazioni sembrino troppo audaci. Ad esempio, la prima frase dell'abstract è:

p=0.0530%

Questo è formulato in modo troppo forte e può effettivamente essere fuorviante.


Certo, ho sfogliato il documento piuttosto rapidamente, ma mi sembra che essenzialmente stia semplicemente ribadendo il noto concetto che è facile trovare effetti spuri in campioni di grandi dimensioni (ad es. Figura 1). Il che non vuol dire che non sia significativo, ma piuttosto ritengo che dovrebbe avere un'interpretazione diversa (e meno coraggiosamente dichiarata) di quella fornita dall'autore.
Ryan Simmons,

1
Non sono sicuro del motivo per cui @RyanSimmons afferma che "essenzialmente stavo solo ribadendo il noto concetto che è facile trovare effetti spuri in campioni di grandi dimensioni". Non aveva nulla a che fare con campioni di grandi dimensioni! Gradirei davvero una spiegazione del perché pensa che il documento dovrebbe avere "un'interpretazione diversa (e meno coraggiosa)".
David Colquhoun,

"Ma nessuno si adegua mai per confronti multipli tra i vari documenti. Sarebbe anche abbastanza impossibile da fare." Ho pensato che uno dei vantaggi degli aggiustamenti del tasso di scoperta falsi rispetto agli aggiustamenti del tasso di errore a livello familiare fosse che mentre quest'ultimo richiede una definizione di famiglia , il primo è scalabile attraverso un numero arbitrario di confronti?
Alexis,

pαp

Ebbene, ciò che si descrive è certamente non è una procedura di comparazione multipla. Tuttavia, eseguendo metodi di regolazione basati su FDR su, diciamo 5 test, e poi aggiungendo altri 20 a quel set di 10 ed eseguendo lo stesso metodo si preservano nuovamente le probabilità di rifiuto in FDR, ma queste probabilità di rifiuto cambiano in FWER. La regolazione Bonferroni di Dunn fornisce un esempio piuttosto drammatico.
Alexis,

12

Benjamini e Hochberg definiscono il tasso di falsa scoperta nello stesso modo in cui lo faccio io, come la frazione di test positivi che sono falsi positivi. Quindi se usi la loro procedura per confronti multipli controlli FDR correttamente. Vale la pena notare, tuttavia, che ci sono molte varianti sul metodo BH. I seminari di Benjamini a Berkeley sono su Youtube e vale la pena guardare:

Non sono sicuro del motivo per cui @amoeba dice "Questo è formulato troppo fortemente e può effettivamente essere fuorviante". Sarei interessato a sapere perché lo pensa. L'argomento più convincente viene dai test t simulati (sezione 6). Ciò imita ciò che quasi tutti fanno in pratica e mostra che se osservi P vicino a 0,047 e affermi di aver fatto una scoperta, ti sbaglierai almeno il 26% delle volte. Cosa può andare storto?

Certo, non dovrei descriverlo come minimo. È quello che ottieni se pensi che ci sia una probabilità del 50% che ci sia un effetto reale. Naturalmente se supponi che la maggior parte delle tue ipotesi siano corrette in anticipo, puoi ottenere un FDR inferiore al 26%, ma puoi immaginare l'ilarità che saluterebbe un'affermazione secondo cui avresti fatto una scoperta sulla base dell'assunto che eri sicuro al 90% in anticipo che la tua conclusione sarebbe stata vera. Il 26% è il FDR minimo dato che non è una base ragionevole per dedurre l'assunzione di una probabilità precedente maggiore di 0,5.

Dato che le intuizioni spesso non reggono quando testate, potrebbe benissimo esserci solo il 10% di possibilità che una particolare ipotesi sia vera, e in quel caso la FDR sarebbe un disastroso 76%.

È vero che tutto ciò dipende dall'ipotesi nulla in quanto esiste una differenza zero (il cosiddetto punto null). Altre scelte possono dare risultati diversi. Ma il punto null è ciò che quasi tutti usano nella vita reale (anche se potrebbe non esserne consapevole). Inoltre il punto null mi sembra essere una cosa del tutto appropriata da usare. Talvolta viene obiettato che le vere differenze non sono mai esattamente zero. Non sono d'accordo. Vogliamo dire se i nostri risultati non sono distinguibili dal caso in cui ad entrambi i gruppi vengono dati trattamenti identici, quindi la vera differenza è esattamente zero. Se decidiamo che i dati non sono compatibili con quella vista, andiamo avanti per stimare la dimensione dell'effetto. e a quel punto giudichiamo separatamente se l'effetto, sebbene reale, sia abbastanza grande da essere importante nella pratica.Blog di Deborah Mayo .


@amoeba Grazie per la tua risposta.

Ciò che la discussione sul blog di Mayo mostra è che Mayo non è d'accordo con me, anche se non ha chiarito il perché, almeno per me). Stephen Senn sottolinea correttamente che è possibile ottenere una risposta diversa se si postula una diversa distribuzione precedente. Mi sembra interessante solo per i bayesiani soggettivi.

È certamente irrilevante per la pratica quotidiana che assume sempre un punto nullo. E come ho spiegato, questa mi sembra una cosa perfettamente sensata da fare.

Molti statistici professionisti sono giunti a conclusioni molto simili alle mie. Prova Sellke & Berger e Valen Johnson (riferimenti nel mio documento). Non c'è nulla di molto controverso (o molto originale) nelle mie affermazioni.

L'altro punto, sull'assumere un precedente di 0,5, non mi sembra affatto un'ipotesi. Come ho spiegato sopra, qualsiasi cosa sopra 0,5 sarebbe in pratica inaccettabile. E qualsiasi cosa inferiore a 0,5 rende il tasso di scoperta falso ancora più alto (ad esempio 76% se precedente è 0,1). Pertanto è perfettamente ragionevole affermare che il 26% è il tasso minimo di falsa scoperta che ci si può aspettare se si osserva P = 0,047 in un singolo esperimento.


Ho pensato di più a questa domanda. La mia definizione di FDR è la stessa di Benjamini, la frazione di test positivi falsi. Ma viene applicato a un problema abbastanza diverso, l'interpretazione di un singolo test. Con il senno di poi sarebbe stato meglio se avessi scelto un termine diverso.

Nel caso di un singolo test, B&H lascia invariato il valore P, quindi non dice nulla sulla falsa percentuale di scoperta, nel senso che uso il termine.


es ovviamente hai ragione. Benjamini & Hochberg e altre persone che lavorano su confronti multipli mirano solo a correggere il tasso di errore di tipo 1. Quindi finiscono con un valore P "corretto". È soggetto agli stessi problemi di qualsiasi altro valore P. Nel mio ultimo articolo, ho cambiato il nome da FDR a False Positive Risk (FPR) nel tentativo di evitare questo malinteso.

Abbiamo anche scritto un'app Web per eseguire alcuni dei calcoli (dopo aver notato che poche persone scaricano gli script R che forniamo). È su https://davidcolquhoun.shinyapps.io/3-calcs-final/ Tutte le opinioni su ita sono benvenute (leggi prima la scheda Note).

PS Il calcolatore web ora ha un nuovo (permanente, spero) su http://fpr-calc.ucl.ac.uk/ Shiny.io è facile da usare, ma molto costoso se qualcuno effettivamente utilizza l'app :-(


Sono tornato a questa discussione, ora che il mio secondo articolo sull'argomento sta per apparire nella Royal Society Open Science. È su https://www.biorxiv.org/content/early/2017/08/07/144337

Mi rendo conto che l'errore più grande che ho commesso nel primo documento è stato l'uso del termine "tasso di scoperta falsa (FDR)". Nel nuovo documento ho reso più esplicito che non sto dicendo nulla sul problema dei confronti multipli. Mi occupo solo della domanda su come interpretare il valore P osservato in un singolo test imparziale.

Nell'ultima versione, mi riferisco alla probabilità che il risultato sia il rischio falso positivo (FPR) piuttosto che FDR, nella speranza di ridurre la confusione. Sostengo anche l'approccio Bayesiano inverso, precisando la probabilità precedente che sarebbe necessaria per garantire un FPR del 5%. Se osservi P = 0,05, questo arriva a 0,87. In altre parole, dovresti essere quasi (87%) sicuro che ci sia stato un effetto reale prima di fare l'esperimento per ottenere un FPR del 5% (che è ciò che la maggior parte delle persone crede ancora, erroneamente, p = 0,05 significa).


Caro David, benvenuto su CrossValidated e grazie per esserti unito! Sembra che siamo d'accordo sulla domanda originale di @ gennaio: la FDR può essere controllata solo da una procedura BH complessiva; se BH è applicato in ogni articolo separatamente, allora i tuoi argomenti si applicano comunque. In tal caso, questo risolve la domanda originale. Per quanto riguarda il mio commento sulle tue formulazioni "troppo forti": dopo aver letto 147 commenti sul blog di Mayo, sono titubante a iniziare un'altra discussione. Come ho scritto, sono per lo più d'accordo con il tuo articolo e le mie obiezioni riguardavano solo alcune formulazioni. [cont.]
Ameba dice Reinstate Monica,

1
[...] La prima frase in astratto è "troppo forte" esattamente per i motivi che hai elencato qui: ad esempio, assume un punto null e assume 0,5 prima, ma suona come se non assumesse nulla (ma capisco che tu ha cercato di essere provocatorio). Un'enorme discussione sul blog di Mayo mostra che molte persone non concordano sul fatto che questi presupposti siano ragionevoli per la pratica scientifica effettiva. Anch'io ho le mie obiezioni, ma concordo con te sul fatto che queste ipotesi potrebbero descrivere accuratamente alcuni campi scientifici. E se è così, questi campi hanno un grosso problema, sì.
ameba dice che ripristini Monica il

2

Una grande parte della confusione è che, nonostante i suoi commenti qui al contrario, Colquhoun NON definisce la FDR allo stesso modo di Benjamini-Hochberg. È un peccato che Colquhoun abbia tentato di coniare un termine senza aver prima verificato che il termine non avesse già una definizione ben definita e diversa. A peggiorare le cose, Colquhoun ha definito la FDR proprio nel modo in cui la FDR convenzionale è stata spesso interpretata male.

Nella sua risposta qui, Colquhoun definisce FDR come "la frazione di test positivi falsi". Questo è simile a quello che Benjamini-Hochberg definisce come FDP (percentuale di scoperta falsa, da non confondere con la percentuale di scoperta falsa). Benjamini-Hochberg definisce FDR come il VALORE ATTESO del periodo di servizio di volo, con una clausola speciale che il periodo di servizio di volo è considerato 0 quando non ci sono test positivi (una clausola che accade per rendere il FDR uguale al FWER quando tutti i null sono veri, e evita valori indefinibili dovuti alla divisione per zero).

Per evitare confusione, suggerisco di non preoccuparsi dei dettagli nel documento di Colquhoun, e piuttosto di prendere a cuore il punto di vista generale (che anche altri innumerevoli hanno fatto) che il livello alfa non corrisponde direttamente alla proporzione di test significativi che sono errori di tipo I (se stiamo parlando dei test significativi in ​​un singolo studio o in diversi studi combinati). Tale proporzione dipende non solo dall'alfa, ma anche dal potere e dalla proporzione di ipotesi nulle verificate che sono vere.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.