Quali sono le differenze pratiche tra la Benjamini e la Hochberg (1995) e la Benjamini e la Yekutieli (2001) procedure di falsa scoperta?


34

Il mio programma statistico implementa sia le procedure del tasso di falsa scoperta (FDR) Benjamini & Hochberg (1995) sia Benjamini & Yekutieli (2001). Ho fatto del mio meglio per leggere l'articolo successivo, ma è abbastanza matematicamente denso e non sono ragionevolmente certo di capire la differenza tra le procedure. Dal codice sottostante nel mio programma statistico posso vedere che sono effettivamente diversi e che quest'ultimo include una quantità q che ho visto fare riferimento a FDR, ma che non ho ancora capito.

C'è qualche motivo per preferire la procedura Benjamini & Hochberg (1995) rispetto alla procedura Benjamini & Yekutieli (2001)? Hanno ipotesi diverse? Quali sono le differenze pratiche tra questi approcci?

Benjamini, Y. e Hochberg, Y. (1995). Controllo del tasso di scoperta falsa: un approccio pratico e potente ai test multipli. Giornale della Royal Statistical Society Serie B, 57, 289–300.

Benjamini, Y. e Yekutieli, D. (2001). Il controllo del tasso di rilevamento falso in più test in dipendenza. Annali delle statistiche 29, 1165-1188.

L'articolo del 1999 fa riferimento nei commenti seguenti: Yekutieli, D., & Benjamini, Y. (1999). Percentuale di rilevamento di falsi basata sul ricampionamento che controlla più procedure di test per statistiche di test correlate. Journal of Statistical Planning and Inference, 82 (1), 171-196.


Pensavo che il documento del 2001 stabilisse le proprietà della FDR (1995) sotto dipendenza. Yekutieli e Benjamini (Journal of Statistical Planning and Inference, 1999) istituiscono una diversa procedura FDR. Qualche possibilità è quella che stai cercando?
Julieth

@julieth: Questo era il mio senso del documento del 2001 quando leggevo il solo estratto, ma le formule nel documento (ad esempio 27-30) sembrano comportare una quantità indicata come q. Poi di nuovo, così fa questo documento del 1999 che citi. Il mio senso però è che l'articolo del 1999 implementa un approccio di ricampionamento che è chiaramente (guardando il codice) non è quello che il mio programma statistico sta facendo (R; p. Aggiusta) ... ma potrei sbagliarmi.
Russellpierce,

1
Alla fine del documento del 2001 viene citato il documento del 1999 e si dice "Infine, ricordare la procedura basata sul ricampionamento di Yekutieli e Benjamini (1999), che cerca di affrontare il problema sopra menzionato e allo stesso tempo utilizza le informazioni sulla dipendenza struttura derivata dal campione. La procedura basata sul ricampionamento è più potente, a scapito di una maggiore complessità e del solo controllo FDR approssimativo. " ... quindi penso che il documento del 2001 abbia fornito una soluzione computazionale in forma chiusa e questo è ciò che il mio programma statistico sta implementando.
Russellpierce,

1
Ok, quindi stai usando p.adjust. La carta 99 è completamente diversa come hai notato. Ho sempre visto l'opzione BY in p.adjust e non ho prestato attenzione. Quel documento del 2001 è di solito citato in relazione alla prova della FDR e alla "dipendenza da regressione positiva". Non l'ho mai visto citando uno stimatore diverso, ma forse è lì. Sembra che debba rileggerlo.
Julieth

Risposte:


21

Benjamini e Hochberg (1995) hanno introdotto il tasso di false scoperte. Benjamini e Yekutieli (2001) hanno dimostrato che lo stimatore è valido in alcune forme di dipendenza. La dipendenza può sorgere come segue. Considera la variabile continua utilizzata in un test t e un'altra variabile ad essa correlata; ad esempio, verificare se l'IMC differisce in due gruppi e se la circonferenza della vita differisce in questi due gruppi. Poiché queste variabili sono correlate, anche i valori p risultanti saranno correlati. Yekutieli e Benjamini (1999) hanno sviluppato un'altra procedura di controllo della FDR, che può essere utilizzata in dipendenza generale ricampionando la distribuzione nulla. Poiché il confronto è relativo alla distribuzione di permutazione nulla, con l'aumentare del numero totale di veri positivi, il metodo diventa più conservativo. Si scopre che BH 1995 è anche conservatore all'aumentare del numero di veri positivi. Per migliorare questo, Benjamini e Hochberg (2000) hanno introdotto la procedura adattativa FDR. Ciò ha richiesto la stima di un parametro, la proporzione nulla, utilizzata anche nello stimatore pFDR di Storey. Storey fornisce confronti e sostiene che il suo metodo è più potente e sottolinea la natura conservatrice della procedura del 1995. Il piano ha anche risultati e simulazioni in dipendenza.

Tutti i test sopra riportati sono validi in indipendenza. La domanda è: che tipo di allontanamento dall'indipendenza possono affrontare queste stime.

Il mio pensiero attuale è che se non ti aspetti troppi veri positivi la procedura BY (1999) è piacevole perché incorpora caratteristiche distributive e dipendenza. Tuttavia, non sono a conoscenza di un'implementazione. Il metodo di Storey è stato progettato per molti veri positivi con una certa dipendenza. BH 1995 offre un'alternativa al tasso di errore a livello familiare ed è ancora conservativo.

Benjamini, Y e Y Hochberg. Sul controllo adattivo della falsa percentuale di individuazione nei test multipli con statistiche indipendenti. Journal of Educational and Behavioural Statistics, 2000.


Molte grazie! Potresti rivedere la tua domanda per chiarire i seguenti punti / problemi: "ricampionare la distribuzione nulla" è il documento del 1999? Potresti fornire la citazione per l'articolo del 2000? Sembravi familiare con p.adjust, sta effettivamente implementando la procedura BY? Bisogna usare BH quando i test di ipotesi non dipendono? Cosa fa considerare dipendenti i test di ipotesi? - Per favore fatemi sapere se una qualsiasi di queste domande va oltre l'attuale scopo e richiede che venga posta una nuova domanda.
Russellpierce,

p.adjust ha opzioni per entrambi (BH e BY). Tuttavia, ho pensato che fossero gli stessi, quindi mi sono perso qualcosa.
Julieth

E anche il codice sottostante è diverso (ho controllato) quindi produrranno numeri diversi.
Russellpierce,

Quindi quale procedura pensi che p.adjust stia eseguendo con l'argomento BY? Non credo sia la procedura del 1999. Il codice sottostante è pmin (1, cummin (q * n / i * p [o])) [ro]. BH è pmin (1, cummin (n / i * p [o])) [ro]. Quindi differiscono solo in q che è somma (1 / (1: n)) dove n = il numero di valori. o e ro servono solo a mettere i valori di p in ordine numerico decrescente per la funzione e poi li sputano indietro nello stesso ordine in cui l'utente li ha
inseriti

1
Quindi, poiché non arrivano nuove risposte, accetterò questa risposta e riassumerò la mia comprensione. p.adjust potrebbe essere errato per BY. Ciò che viene eseguito non è il ricampionamento. BH, 2000 ha introdotto la procedura adattativa FDR e ciò comporta la stima della proporzione nulla, che può essere la q che appare nel codice BY. Nel frattempo, sembra che la cosa sensata da fare sia citare p.adjust direttamente in quanto riflette la procedura effettiva utilizzata quando si utilizza l'opzione "BY" e solo essere consapevoli del fatto che "BY" potrebbe effettivamente implementare Benjamini & Hochberg, 2000.
Russellpierce,

5

p.adjust non fa errori per BY. Il riferimento è al Teorema 1.3 (prova nella Sezione 5 a p.1182) nel documento:

Benjamini, Y. e Yekutieli, D. (2001). Il controllo del tasso di rilevamento falso in più test in dipendenza. Annali delle statistiche 29, 1165-1188.

Mentre questo documento discute diverse regolazioni diverse, il riferimento nella pagina di aiuto (al momento della scrittura) per p.adjust () è alquanto oscuro. Il metodo è garantito per controllare FDR, al tasso indicato, sotto la struttura di dipendenza più generale. Ci sono commenti informativi nelle diapositive di Christopher Genovese su: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Nota il commento sulla diapositiva 37, facendo riferimento al metodo del Teorema 1.3 nel documento BY 2001 [method = 'BY' con p.adjust ()] che: "Sfortunatamente, questo è in genere molto conservativo, a volte anche più di Bonferroni."

Esempio numerico: method='BY' vsmethod='BH'

Quanto segue confronta method = 'BY' con method = 'BH', usando la funzione p.adjust () di R, per i valori p dalla colonna 2 della tabella 2 nel documento Benjamini e Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

Σio=1m(1/io)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, incolla (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

m

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.