Cosa c'è che non va nelle regolazioni di Bonferroni?


23

Ho letto il seguente documento: Perneger (1998) Cosa c'è che non va nelle regolazioni di Bonferroni .

L'autore ha riassunto affermando che l'aggiustamento di Bonferroni ha, nella migliore delle ipotesi, applicazioni limitate nella ricerca biomedica e non dovrebbe essere usato quando si valutano prove su ipotesi specifiche:

Punti di riepilogo:

  • La regolazione della significatività statistica per il numero di test eseguiti sui dati di studio - il metodo Bonferroni - crea più problemi di quanti ne risolva
  • Il metodo Bonferroni riguarda l'ipotesi nulla generale (che tutte le ipotesi null sono vere simultaneamente), che raramente è di interesse o di utilità per i ricercatori
  • Il principale punto debole è che l'interpretazione di un risultato dipende dal numero di altri test eseguiti
  • Anche la probabilità di errori di tipo II è aumentata, in modo che differenze veramente importanti siano ritenute non significative
  • Descrivere semplicemente quali test di significatività sono stati eseguiti e perché, in genere, è il modo migliore per affrontare confronti multipli

Ho il seguente set di dati e desidero effettuare la correzione multipla dei test MA in questo caso non riesco a decidere il metodo migliore.

inserisci qui la descrizione dell'immagine

Voglio sapere se è indispensabile eseguire questo tipo di correzione per tutti i set di dati che contengono elenchi di mezzi e qual è il metodo migliore per la correzione in questo caso?


che cosa è esattamente "mean A", "meanB" ...?

3
Con non correggendo per confronti multipli si corre il rischio di risultati non riproducibili. Molti campi, tra cui la medicina e la psicologia, hanno recentemente scoperto che è esattamente quello che è successo: gran parte di ciò che "conoscono" sulla base di valori p non corretti risulta semplicemente non essere così. Senza che il significato appaia cinico, sembra che la scelta sia chiara: il ricercatore che deve soddisfare un criterio di valore p per pubblicare non correggerà; lo scettico che vuole la conoscenza lo farà.
whuber

@whuber ma può ancora essere considerato riproducibile quando sono disponibili tanti metodi diversi per correggere i valori p? Nella sua risposta martino fornisce anche linee guida per scegliere tra metodi meno conservatori o più potenti.
Nakx,

La riproducibilità di @Nakx è solo vagamente associata alla procedura statistica: si riferisce al fatto che si otterranno risultati comparabili o meno quando la ricerca viene condotta in modo indipendente da altri (e presumibilmente in tali tentativi di replica, una singola chiara ipotesi verrà articolata in anticipo e sarà utilizzata una procedura statistica adeguata a tale ipotesi). Se la procedura originale non produce un valore p corretto, quindi, se usata molte volte per molti studi indipendenti, farà in media determinazioni più improducibili di quanto i suoi utenti intendano o si aspettino.
whuber

Risposte:


23

Ciò che è sbagliato nella correzione di Bonferroni oltre al conservatorismo menzionato da altri è ciò che è sbagliato in tutte le correzioni di molteplicità. Non seguono i principi statistici di base e sono arbitrari; non esiste una soluzione unica al problema della molteplicità nel mondo frequentista. In secondo luogo, gli aggiustamenti della molteplicità si basano sulla filosofia di base secondo cui la veridicità di un'affermazione dipende da quali altre ipotesi sono accettate. Ciò equivale a una configurazione bayesiana in cui la distribuzione precedente per un parametro di interesse continua a diventare più conservativa quando vengono considerati altri parametri. Questo non sembra essere coerente. Si potrebbe dire che questo approccio viene dai ricercatori che sono stati "bruciati" da una storia di esperimenti falsi positivi e che ora vogliono rimediare ai loro misfatti.

Per espandere un po ', considerare la seguente situazione. Un ricercatore di oncologia ha fatto una carriera studiando l'efficacia delle chemioterapie di una certa classe. Tutti i 20 precedenti dei suoi studi randomizzati hanno portato a un'efficacia statisticamente insignificante. Ora sta testando una nuova chemioterapia nella stessa classe. Il beneficio di sopravvivenza è significativo con P=0.04. Un collega sottolinea che è stato studiato un secondo endpoint (riduzione del tumore) e che è necessario applicare un aggiustamento della molteplicità al risultato di sopravvivenza, ottenendo un beneficio di sopravvivenza insignificante. Com'è possibile che il collega abbia enfatizzato il secondo endpoint ma non gliene potrebbe fregare di meno di adattarsi ai 20 precedenti tentativi falliti di trovare un farmaco efficace? E come prenderesti in considerazione le conoscenze precedenti sui 20 studi precedenti se non fossi Bayesiano? E se non ci fosse stato un secondo endpoint. Il collega avrebbe creduto che fosse stato dimostrato un beneficio in termini di sopravvivenza, ignorando tutte le conoscenze precedenti?


2
Non chiaro sul riferimento a "ripetibile". Se esiste un singolo test, senza necessità di regolazione della molteplicità, la possibilità che si ripeta un risultato con non è elevata. P=0.04
Frank Harrell,

2
Per rispondere a @MJA penso che ci siano due approcci preferiti: (1) essere bayesiano o (2) dare la priorità alle ipotesi e riportare i risultati nel contesto, in ordine di priorità.
Frank Harrell,

3
Non vi è nulla di principio al riguardo né è esatto in alcun modo. La disuguaglianza di Bonferroni è un limite superiore solo per la probabilità di errore. Perché spendere equamente su 5 parametri? Perché non creare una regione ellissoidale anziché rettangolare per la regione di accettazione? Perché non usare il metodo di Scheffe o Tukey? Perché non utilizzare un semplice test composito di tipo ANOVA? Non si ottiene l' α desiderato usando un in uguaglianza. αα
Frank Harrell,

2
Stai equivocando due tassi di errore. Sotto il null, Bonferroni ESATTAMENTE mantiene il numero previsto di errori per famiglia. Fornisce un LIMITE SUPERIORE sulla probabilità di "almeno un" errore per famiglia (che dipende dalla correlazione). Trascorrere equamente l'alfa sui 5 test è perfettamente logico, dato che non vi è alcun motivo particolare per dare priorità ai test in modo diverso. Dato un altro contesto, ci sono ragioni di principio per fare diversamente. Sembrerebbe implicare che è "senza principi" usare un metodo matematicamente valido semplicemente perché esistono metodi alternativi dati altri contesti, obiettivi e ipotesi.
Bonferroni,

2
@FrankHarrell Le altre tue domande servono solo a illustrare il mio punto. Esistono spesso numerose scelte di statistiche di test, procedure di test, ecc., Anche in assenza di molteplicità. Ciò non rende la metodologia "arbitraria" nel senso che sembra implicare. Se uno è interessato a un test omnibus, allora conduci uno. Se uno è interessato solo alle prove univariate, allora conduci le prove univariate. Stai seriamente suggerendo che è "arbitrario" selezionare il test che affronta la domanda che ti interessa piuttosto che qualche altra domanda?
Bonferroni,

12

Ha riassunto dicendo che l'aggiustamento di Bonferroni ha, nella migliore delle ipotesi, applicazioni limitate nella ricerca biomedica e non dovrebbe essere usato quando si valutano prove su ipotesi specifiche.

La correzione Bonferroni è una delle tecniche di confronto multiplo più semplice e più conservativa. È anche uno dei più antichi ed è stato migliorato notevolmente nel tempo. È corretto affermare che gli aggiustamenti Bonferroni hanno un'applicazione limitata in quasi tutte le situazioni. C'è quasi sicuramente un approccio migliore. Vale a dire, dovrai correggere più confronti ma puoi scegliere un metodo meno conservativo e più potente.

Meno conservatore

Metodi di confronto multipli proteggono dall'ottenere almeno un falso positivo in una famiglia di test. Se esegui un test a livello , stai concedendo una probabilità del 5% di ottenere un falso positivo. In altre parole, rifiuti erroneamente la tua ipotesi nulla. Se esegui 10 test al livello α = 0,05 , questo aumenta a 1 - ( 1 - 0,05 ) 10 = ~ 40% di probabilità di ottenere un falso positivoαα=0.051(10.05)10

Con il metodo Bonferroni usi un all'estremità più bassa della scala (cioè α b = α / n ) per proteggere la tua famiglia di n test a livello α . In altre parole, è il più conservatore. Ora puoi aumentare α b al di sopra del limite inferiore impostato da Bonferroni (ovvero rendere il tuo test meno conservativo) e comunque proteggere la tua famiglia di test a livello α . Esistono molti modi per farlo, ad esempio il metodo Holm-Bonferroni o, meglio ancora, False Discovery Rateαbαb=α/nnααbα

Più potente

Un buon punto sollevato nel documento a cui si fa riferimento è che aumenta anche la probabilità di errori di tipo II, in modo che differenze veramente importanti siano ritenute non significative.

Questo è molto importante. Un test potente è quello che trova risultati significativi se esistono. Usando la correzione Bonferroni si ottiene un test meno potente. Dato che Bonferroni è conservatore, è probabile che il potere venga notevolmente ridotto. Ancora una volta, uno dei metodi alternativi, ad esempio False Discovery Rate, aumenterà la potenza del test. In altre parole, non solo proteggi dai falsi positivi, ma migliora anche la tua capacità di trovare risultati veramente significativi.

Quindi sì, dovresti applicare alcune tecniche di correzione quando hai confronti multipli. E sì, Bonferroni dovrebbe probabilmente essere evitato a favore di un metodo meno conservatore e più potente


Esistono diverse alternative: Holm Bonferroni, ad esempio, è semplice e di facile comprensione. Perchè non provarlo. Supponiamo che la tua applicazione sia nell'espressione genica o nell'espressione proteica in cui stai testando forse migliaia di variabili in un esperimento, quindi la tua FDR viene generalmente utilizzata.
martino,

Il tuo metodo di calcolo della probabilità del 40% di falsi positivi in ​​dieci test si basa sul fatto che i tuoi test sono eventi indipendenti, ma con dati reali questo è abbastanza improbabile. Penso che sia almeno degno di un commento.
Silverfish

Sono anche preoccupato che questa risposta sembra confondere i metodi per preservare il tasso di errore familiare con quelli per il tasso di scoperta falsa. Non è una cattiva idea discutere di entrambe queste cose, ma dal momento che svolgono diversi lavori non penso che dovrebbero essere presentati come equivalenti
Silverfish

Ma se ho capito bene, l'FDR (tassi di falsa rilevazione) non garantisce il controllo degli errori di tipo I a un livello predeterminato? (vedi anche la mia risposta a questa domanda)

Ma non è più trasparente e utile riportare tutti i valori p grezzi in un articolo, in modo che i lettori possano giudicare da soli della loro validità o scegliere quale tra la miriade di metodi di regolazione che vogliono usare?
Nakx,

5

Thomas Perneger non è uno statistico e il suo documento è pieno di errori. Quindi non lo prenderei troppo sul serio. In realtà è stato pesantemente criticato da altri. Ad esempio, Aickin ha affermato che il documento di Perneger "consiste quasi interamente di errori": Aickin, "Esiste un altro metodo per la regolazione di test multipli", BMJ. 9 gennaio 1999; 318 (7176): 127.

Inoltre, nessuno dei valori p nella domanda originale è comunque <.05, anche senza aggiustamento della molteplicità. Quindi probabilmente non importa quale regolazione (se presente) viene utilizzata.


4
Grazie per il link! Ho aggiunto un riferimento più completo. Questo è ancora più un commento che una risposta e sono sicuro che hai qualcosa di interessante da aggiungere, o almeno un breve riassunto di ciò che dice Aicken. Non correlato a questo: dire che Perneger non ha esperienza nelle statistiche non sembra vero (secondo uno standard ragionevole), gentile o utile - valuteresti di rimuovere la dichiarazione?
Scortchi - Ripristina Monica

@Scortchi Ho cambiato "non ha esperienza nelle statistiche" in "non è uno statistico". Per inciso, non sono d'accordo sul fatto che non sia utile distinguere le opinioni degli esperti da quelle degli esperti.
Bonferroni,

2
Per quanto ne so, Perneger non ha una laurea in statistica e non ha mai pubblicato un articolo su una rivista statistica. Il documento citato nella domanda è un articolo di opinione in BMJ che è stato chiamato per essere completamente sbagliato. Quindi qual è la presunta competenza di Perneger che è indiscutibile "al di là di ogni standard ragionevole?" Essere "amabili" non dovrebbe ostacolare la verità.
Bonferroni,

3
Per quanto io posso dire che è un professore in un ospedale universitario con un Master in Biostatistica e un dottorato di ricerca in epidemiologia che docente di Statistica Medica e pubblica analisi di studi clinici e studi osservazionali in riviste mediche. Se deduci da tale "nessuna competenza statistica", penso che il tuo standard sia piuttosto elevato di quanto tu possa ragionevolmente aspettarti che i tuoi lettori assumano. (Il che è quello che avrei dovuto dire piuttosto che lo standard era irragionevole.) Comunque, grazie per averlo modificato!
Scortchi - Ripristina Monica

5

Forse è bene spiegare il "ragionamento alla base" di molteplici correzioni di test come quella di Bonferroni. Se questo è chiaro, sarai in grado di giudicare te stesso se dovresti applicarli o meno.

μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

La falsa prova è una brutta cosa nella scienza perché crediamo di aver acquisito una vera conoscenza del mondo, ma in effetti potremmo aver avuto sfortuna con il campione. Questo tipo di errori dovrebbe pertanto essere controllato. Pertanto si dovrebbe porre un limite massimo alla probabilità di questo tipo di prove, oppure si dovrebbe controllare l'errore di tipo I. Questo viene fatto fissando in anticipo un livello di significatività accettabile.

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

Il fatto importante qui è che i due test si basano su uno e sul campione!

Si noti che abbiamo assunto l'indipendenza. Se non puoi assumere l'indipendenza, allora puoi mostrare, usando la disuguaglianza di Bonferroni $ che l'errore di tipo I può gonfiare fino a 0,1.

Si noti che Bonferroni è conservativo e che la procedura graduale di Holm ha le stesse ipotesi di Bonferroni, ma la procedura di Holm ha più potere.

Quando le variabili sono discrete, è meglio utilizzare le statistiche dei test basate sul valore p minimo e se si è pronti ad abbandonare il controllo degli errori di tipo I quando si esegue un numero enorme di test, le procedure di False Discovery Rate potrebbero essere più potenti.

MODIFICARE :

Se ad esempio (vedere l'esempio nella risposta di @Frank Harrell)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


2
Penso che questa domanda tragga beneficio da una risposta come questa, ma suggerisco di rafforzare la formulazione di "Quindi se fissiamo il nostro livello di significatività al 5%, stiamo dicendo che siamo pronti ad accettare di trovare prove false (a causa della sfortuna con il campione ) con una probabilità del 5% "... Questa è solo la probabilità di errore se il valore nullo è effettivamente vero , e vale la pena dirlo. (È "falsa prova" un termine comune? Sono più abituato a vedere "falso positivo".)
Silverfish

@Silverfish; L'ho riformulato un po ', pensi che sia meglio così?

1
Penso che sia meglio - "statisticamente provato" probabilmente trarrebbe beneficio anche dalla riformulazione, so che questo è quante persone interpretano p <0,05 o qualsiasi altra cosa, ma ovviamente non è davvero una prova!
Silverfish

@Silverfish: concordo pienamente che non si tratta di una '' prova '' ma ho usato il termine per motivi didattici, perché ho iniziato per analogia a provare per contraddizione. Aggiungerò un tale chiarimento all'inizio

La tua modifica è confusa. "L'effetto della chemioterapia" nell'esempio di Frank si misura attraverso due misure: tasso di sopravvivenza e riduzione del tumore. Entrambi possono essere influenzati dalla chemio. L'ipotesi è ovviamente che la chemio funzioni. Ma i "lavori" possono essere quantificati in due modi diversi. Questo è l'aspetto di vaghezza di cui ho parlato nel tuo nuovo thread.
ameba dice Reinstate Monica il

4

Una bella discussione sulla correzione di Bonferroni e sulla dimensione dell'effetto http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Inoltre, vale la pena considerare la correzione di Dunn-Sidak e l'approccio delle probabilità combinate di Fisher come alternative. Indipendentemente dall'approccio, vale la pena riportare sia i valori p rettificati che grezzi più la dimensione dell'effetto, in modo che il lettore possa avere la libertà di interpretarli.


Il consiglio di presentare valori p sia grezzi che adeguati mi è sempre sembrato sensato, ma è generalmente considerato la norma o addirittura accettabile?
Silverfish

3

Per uno, è estremamente conservatore. Il metodo Holm-Bonferroni realizza ciò che il metodo Bonferonni realizza (controllando il saggio tasso di errore familiare) pur essendo uniformemente più potente.


Significa che devo usare questo metodo per correggere i miei risultati o dovrei accettarli a seconda della mia ipotesi.
goro,

Non so cosa intendi con "Dovrei accettare i risultati a seconda della mia ipotesi", ma sì, dovresti applicare una sorta di correzione multipla del test perché altrimenti stai gonfiando un errore di tipo 1 altamente gonfiante.
TrynnaDoStat,

Ciò che intendevo per "dovrei accettare i risultati in base alla mia ipotesi" è che ho eseguito la mia analisi in tre modi diversi, inclusi i metodi GLM e di permutazione. tutti i metodi mi hanno dato risultati significativi e questi risultati supportano la mia ipotesi che dovrei avere differenze significative tra i gruppi. Quando ho usato Bonferroni per la correzione multipla Tutti i miei risultati non erano significativi. Ecco perché sono confuso. Questo metodo non è ottimale per la mia analisi, quindi posso usarne uno diverso o posso fidarmi dei miei risultati a seconda dei risultati degli altri metodi senza usare Bonferroni?
goro,

1
Ok, capisco cosa stai dicendo. Se testassi la stessa ipotesi in 3 modi diversi, non applicherei una correzione multipla per i test. Il motivo è che questi tre risultati dei test sono presumibilmente fortemente dipendenti l'uno dall'altro.
TrynnaDoStat,

3

Bisognerebbe considerare i metodi "False Discovery Rate" come alternativa meno conservatrice a Bonferroni. Vedere

John D. Storey, "IL POSITIVO FALSO TASSO DI SCOPERTA: UN'INTERPRETAZIONE BAYESIANA E IL q-VALUE", The Annals of Statistics 2003, vol. 31, n. 6, 2013-2035.


3
Questi controllano però cose diverse. FDR garantisce che fino al 5% in più (o qualunque sia la tua alfa) delle tue chiamate siano falsi positivi, il che è diverso dal preservare il tasso di errore familiare (che è ciò che fa Bonferroni).
Matt Krause,

@Matt Krause: E se capisco bene, l'FDR (tassi di falsi rilevamento) non garantisce il controllo degli errori di tipo I a un livello predeterminato? (vedi anche la mia risposta a questa domanda)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.