Perché il confronto multiplo è un problema?


44

Trovo difficile capire quale sia realmente il problema con più confronti . Con una semplice analogia, si dice che una persona che prenderà molte decisioni farà molti errori. Si applicano quindi precauzioni molto conservative, come la correzione di Bonferroni, in modo da rendere probabile che questa persona commetta qualsiasi errore, il più basso possibile.

Ma perché ci preoccupiamo se la persona ha commesso qualche errore tra tutte le decisioni che ha preso, piuttosto che la percentuale di decisioni sbagliate?

Vorrei provare a spiegare cosa mi confonde con un'altra analogia. Supponiamo che ci siano due giudici, uno ha 60 anni e l'altro ha 20 anni. Quindi la correzione Bonferroni dice a chi ha 20 anni di essere il più conservatore possibile, nel decidere per l'esecuzione, perché lavorerà per molti altri anni come giudice, prenderà molte più decisioni, quindi deve stare attento. Ma quello a 60 anni probabilmente andrà in pensione presto, prenderà meno decisioni, quindi può essere più negligente rispetto all'altro. Ma in realtà, entrambi i giudici dovrebbero essere altrettanto prudenti o prudenti, indipendentemente dal numero totale di decisioni che prenderanno. Penso che questa analogia si traduca più o meno nei problemi reali in cui viene applicata la correzione di Bonferroni, che trovo controintuitivo.


8
non è davvero una risposta alla tua domanda, ma hai riscontrato False Discovery Rates (FDR)? "Beyond Bonferroni" di Narum: springerlink.com/content/c5047h0084528056
apeescape

Risposte:


40

Hai dichiarato qualcosa che è un classico argomento contrario alle correzioni di Bonferroni. Non dovrei modificare il mio criterio alfa in base a tutti i test che farò mai? Questo tipo di implicazioni ad assurdo è il motivo per cui alcune persone non credono affatto nelle correzioni in stile Bonferroni. A volte il tipo di dati di cui ci si occupa nella loro carriera è tale che questo non è un problema. Per i giudici che prendono una o poche decisioni su ogni nuova prova, questo è un argomento molto valido. Ma che dire del giudice con 20 imputati e che sta basando il proprio giudizio su un unico grande insieme di dati (ad esempio i tribunali di guerra)?

Stai ignorando i calci alla parte lattina dell'argomento. Generalmente gli scienziati sono alla ricerca di qualcosa - un valore p inferiore a quello alfa. Ogni tentativo di trovarne uno è un altro calcio alla lattina. Uno alla fine ne troverà uno se ne prenderà abbastanza. Pertanto, dovrebbero essere penalizzati per averlo fatto.

Il modo in cui armonizzi questi due argomenti è rendersi conto che sono entrambi veri. La soluzione più semplice è quella di considerare il test delle differenze all'interno di un singolo set di dati come un calcio al tipo di problema della lattina, ma l'espansione dell'ambito della correzione all'esterno sarebbe una pendenza scivolosa.

Questo è un problema veramente difficile in un certo numero di campi, in particolare FMRI in cui ci sono migliaia di punti dati da confrontare e ci sono sicuramente alcuni che risultano significativi per caso. Dato che il campo è stato storicamente molto esplorativo, bisogna fare qualcosa per correggere il fatto che centinaia di aree del cervello appariranno significative per puro caso. Pertanto, in questo campo sono stati sviluppati molti metodi di adattamento del criterio.

D'altra parte, in alcuni campi si potrebbe al massimo guardare da 3 a 5 livelli di una variabile e testare sempre ogni combinazione se si verifica un ANOVA significativo. Questo è noto per avere alcuni problemi (errori di tipo 1) ma non è particolarmente terribile.

Dipende dal tuo punto di vista. Il ricercatore FMRI riconosce la reale necessità di un cambiamento di criterio. La persona che guarda un piccolo ANOVA può sentire che c'è chiaramente qualcosa nel test. Il corretto punto di vista conservativo sui confronti multipli è fare sempre qualcosa al riguardo, ma solo basandosi su un singolo set di dati. Qualsiasi nuovo dato reimposta il criterio ... a meno che tu non sia un bayesiano ...


Grazie, è stato molto utile. Lo voterò quando avrò abbastanza rappresentante.
AgCl

Il ricercatore FMRI probabilmente userebbe anche il criterio del False Discovery Rate (FDR), poiché garantisce alfa * 100% di falsi positivi per un lungo periodo di test.
Brandon Sherman,

@ John, puoi per favore rispondere a questa domanda stats.stackexchange.com/questions/431011/… Sarei felice, se per favore, puoi aiutarmi.
Sabbir Ahmed,

26

I statistici di tutto rispetto hanno preso una grande varietà di posizioni su confronti multipli. È un argomento sottile. Se qualcuno pensa che sia semplice, mi chiedo quanto ci abbiano pensato.

Ecco un'interessante prospettiva bayesiana sui test multipli di Andrew Gelman: perché non ci preoccupiamo (di solito) di confronti multipli .


2
Ciò che trovo interessante di questo articolo è che la prospettiva è bayesiana, ma l'approccio di modellazione gerarchica offerto per sostituire le correzioni per confronti multipli non richiede che tu sia bayesiano.
conjugateprior

1
Stavo solo guardando quell'articolo; Penso che forse debba essere citato di più. Odio gli effetti di vampate di calore perché le tecniche avanzate di confronto multiplo non sono ben note o facili da fare. Al contrario, un approccio più lento è semplice. Mi chiedo se ci siano seri problemi da prendere in considerazione.
Russellpierce,


13

In relazione al commento precedente, ciò che il ricercatore di fMRI dovrebbe ricordare è che i risultati clinicamente importanti sono importanti, non lo spostamento di densità di un singolo pixel su una fMRI del cervello. Se non si traduce in un miglioramento / danno clinico, non importa. Questo è un modo per ridurre la preoccupazione per confronti multipli.

Guarda anche:

  1. Bauer, P. (1991). Test multipli in studi clinici. Stat Med, 10 (6), 871-89; discussione 889-90.
  2. Proschan, MA e Waclawiw, MA (2000). Linee guida pratiche per l'adeguamento della molteplicità negli studi clinici. Control Clin Trials, 21 (6), 527-39.
  3. Rothman, KJ (1990). Non sono necessarie modifiche per confronti multipli. Epidemiologia (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). Cosa c'è che non va nelle regolazioni di bonferroni. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

Vale sicuramente la pena citare anche questo: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico,

Sono sicuro che si sono divertiti un sacco a chiedere a un salmone morto le sue emozioni !!!
nico,

Questo post contiene anche utili riferimenti relativi agli RCT: j.mp/bAgr1B .
CHL

10

n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

niτiH0i|Xi|>τi

τi

  1. scegli la stessa soglia per tutti

  2. per scegliere una soglia diversa per tutti (molto spesso una soglia datawise, vedi sotto).

Obiettivi diversi: queste opzioni possono essere guidate per obiettivi diversi come

  • H0ii
  • Controllo delle aspettative del rapporto di falso allarme (o False Discovery Rate)

    Qualunque sia il tuo obiettivo alla fine, è una buona idea usare una soglia datawise.

La mia risposta alla tua domanda: la tua intuizione è correlata all'euristica principale per la scelta di una soglia datawise. È il seguente (all'origine della procedura di Holm che è più potente di Bonferoni):

p|Xi|H0inpH0i

Nel caso dei tuoi giudici: presumo (e immagino che dovresti fare lo stesso) che entrambi i giudici abbiano gli stessi budget di false accuse per la loro vita. Il giudice di 60 anni potrebbe essere meno conservatore se, in passato, non ha accusato nessuno! Ma se ha già fatto molte accuse sarà più conservatore e forse anche più del giudice più giovane.


Penso che tu abbia un refuso nelle tue ipotesi - sembrano entrambi uguali ...
walkytalky

2

Un articolo illustrativo (e divertente); http://www.jsur.org/ar/jsur_ben102010.pdf ) sulla necessità di eseguire più correzioni ai test in alcuni studi pratici facendo evolvere molte variabili, ad esempio fmri. Questa breve citazione dice la maggior parte del messaggio:

"[...] abbiamo completato una sessione di scansione fMRI con un salmone atlantico post mortem come soggetto. Al salmone è stato mostrato lo stesso compito di prospettiva sociale che è stato successivamente somministrato a un gruppo di soggetti umani."

questo è, secondo la mia esperienza, un argomento formidabile per incoraggiare gli utenti a utilizzare più correzioni di test.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.