Sidak o Bonferroni?


13

Sto usando un modello lineare generalizzato in SPSS per esaminare le differenze nel numero medio di bruchi (non normale, usando la distribuzione di Tweedie) su 16 diverse specie di piante.

Voglio eseguire più confronti, ma non sono sicuro se dovrei usare un test di correzione Sidak o Bonferroni. Qual è la differenza tra i due test? Uno è migliore dell'altro?


1
Odio il fatto che tali correzioni siano spesso necessarie con il test delle ipotesi del frequentatore standard e preferisco di gran lunga le tecniche bayesiane. Detto questo, odio meno la correzione Sidak perché sembra meno ad hoc (se si è disposti ad accettare l'assunzione di indipendenza). Questa è principalmente solo una preferenza personale, quindi l'ho fatto un commento anziché una risposta.
Michael McGowan,

1
@MichaelMcGowan: Solo curioso, ma cosa consideri " ad hoc " riguardo una correzione Bonferroni?
cardinale

@cardinal Spiacente, probabilmente non è stata la scelta migliore delle parole. A costo di aver bisogno di ipotesi più forti (non voglio banalizzare quel costo), la correzione Sidak crea un limite con un significato più qualitativo. Non posso davvero spiegare qualitativamente ciò che il limite rappresenta nella correzione di Bonferroni a parte una sorta di caso peggiore legato alla disuguaglianza di Boole.
Michael McGowan,

@MichaelMcGowan: Ah, ok. Vedo. Suppongo che ci siano un paio di cose qualitative che si potrebbero dire su Bonferroni: (a) Fornisce una protezione garantita contro il tasso di errore familiare, indipendentemente dalla dipendenza tra le singole statistiche dei test sotto il null e (b) È la correzione esattamente corretta fare quando le regioni di rifiuto dei singoli test di ipotesi sono disgiunte a coppie.
cardinale

1
Due test non sono indipendenti se la probabilità di un errore di tipo I per un test è correlata a quella per l'altro test. Ad esempio, supponiamo di eseguire un esperimento con una condizione di controllo e due condizioni di test. I due test che confrontano ciascuna condizione di test con la condizione di controllo non sono indipendenti. Puoi vederlo considerando cosa succede se per caso ottieni un valore estremo per la condizione di controllo. Ciò renderebbe entrambi i due test più probabilmente statisticamente significativi.

Risposte:


20

Se si eseguono test statistici indipendenti usando come livello di significatività e il valore nullo si ottiene in ogni caso, se si troverà o meno "significatività" è semplicemente un disegno da una variabile casuale. In particolare, è preso da una distribuzione binomiale con e . Ad esempio, se si prevede di eseguire 3 test utilizzando e (all'insaputa dell'utente) in realtà non vi è alcuna differenza in ciascun caso, quindi esiste una probabilità del 5% di trovare un risultato significativo in ciascun test. In questo modo, il tasso di errore di tipo I viene mantenuto suα p = αkαp=αα = .05 α α α α o α n e wn=kα=.05αper i test singolarmente, ma nell'insieme di 3 test il tasso di errore di tipo I a lungo termine sarà più elevato. Se ritieni che sia significativo raggruppare / pensare insieme a questi 3 test, potresti voler mantenere il tasso di errore di tipo I su per l'insieme nel suo insieme , piuttosto che solo individualmente. Come dovresti procedere? Esistono due approcci incentrati sul passaggio dall'originale (cioè, ) a un nuovo valore (cioè, ):αααoαnew

Bonferroni: regola usato per valutare "significatività" in modo taleα

αnew=αok

Dunn-Sidak: regola usandoα

αnew=1(1αo)1/k

(Si noti che il Dunn-Sidak presume che tutti i test all'interno del set siano indipendenti l'uno dall'altro e potrebbe produrre inflazione di errore di tipo I a livello familiare se tale ipotesi non regge.)

E 'importante notare che, quando effettua le prove, ci sono due tipi di errori che si vuole evitare, tipo I (vale a dire, dicendo che non è una differenza quando non c'è uno) e tipo II (vale a dire, dicendo che ci non è una differenza quando c'è effettivamente). In genere, quando le persone discutono di questo argomento, discutono solo - e sembrano essere consapevoli / interessati solo di - errori di tipo I. Inoltre, le persone spesso trascurano di menzionare che il tasso di errore calcolato sarà valido solo se tutti i valori null sono veri. È banalmente ovvio che non è possibile commettere un errore di tipo I se l'ipotesi nulla è falsa, ma è importante tenere presente questo fatto esplicitamente quando si discute di questo problema.

Lo sollevo perché ci sono implicazioni di questi fatti che sembrano non essere prese in considerazione. In primo luogo, se , l'approccio Dunn-Sidak offrirà una potenza maggiore (sebbene la differenza possa essere piuttosto piccola con una piccola ) e quindi dovrebbe essere sempre preferita (quando applicabile). In secondo luogo, dovrebbe essere utilizzato un approccio " graduale " . Cioè, prova prima l'effetto più grande; se sei convinto che il null non ottenga in quel caso, allora il numero massimo possibile di errori di tipo I è , quindi il test successivo dovrebbe essere adattato di conseguenza, e così via. (Questo spesso rende le persone a disagio e si presenta come la pesca, ma è non èk k - 1 αk>1kk1pesca, poiché i test sono indipendenti e si intendeva condurli prima di aver mai visto i dati. Questo è solo un modo per regolare modo ottimale.) α

Quanto sopra vale indipendentemente dal modo in cui apprezzi il tipo I rispetto agli errori di tipo II. Tuttavia, a priori non vi è motivo di ritenere che gli errori di tipo I siano peggiori del tipo II (nonostante il fatto che tutti sembrano assumerlo). Invece, questa è una decisione che deve essere presa dal ricercatore e deve essere specifica per quella situazione. Personalmente, se eseguo contrasti ortogonali suggeriti teoricamente, a priori , di solito non aggiusto .α

(E per ribadirlo, poiché è importante, tutto quanto sopra presuppone che i test siano indipendenti. Se i contrasti non sono indipendenti, come quando diversi trattamenti vengono confrontati con lo stesso controllo, un approccio diverso rispetto a Adjustment , come il test di Dunnett, dovrebbe essere usato.) α


+1. Quello che chiami un approccio "discendente" per Bonferroni è esattamente equivalente a quello che è noto come metodo Holm-Bonferroni? Se sì, allora la stessa logica applicata a Dunn-Sidak ha un nome?
ameba dice Ripristina Monica il

1
@amoeba, sì, a volte viene chiamato "metodo di Holm", quindi Holm-Bonferroni o Holm-Sidak.
gung - Ripristina Monica

Grazie. Un'altra domanda che ho riguarda la tua affermazione che se stai eseguendo contrasti teoricamente suggeriti, a priori, ortogonali, di solito non aggiusti . Quanto è importante "ortogonale" qui? Ad esempio, se hai 6 gruppi di soggetti e confronti i gruppi 2, 3, 4, 5 e 6 con il gruppo 1 (dove il gruppo 1 potrebbe essere ad esempio un gruppo di controllo), questi sono contrasti non ortogonali. Ti sentiresti diverso nel regolare in questo caso rispetto a quando i tuoi contrasti sono davvero ortogonali, come 1-2, 3-4, 5-6? Se è così, perché? ααα
ameba dice Reinstate Monica il

@amoeba, eseguendo 3 contrasti a priori, ortogonali in 1 studio non è diverso dal correre 1 contrasto a priori in ciascuno dei 3 diversi studi. Dal momento che nessuno sostiene che sono necessarie correzioni a livello familiare per la seconda, non esiste un motivo coerente per richiederle per la prima. Nel tuo altro esempio, se il gruppo di controllo dovesse rimbalzare più in basso per caso, ognuno dei 5 contrasti sembrerà buono; ma è improbabile che ciò accada se hai eseguito 5 studi indipendenti. Dovresti davvero usare una qualche forma di regolazione, oppure potresti usare il test di Dunnett .
gung - Ripristina Monica

Non credo di aver capito fino in fondo. Ho eseguito una simulazione rapida con valori in ciascun gruppo con e . Ho 0,14 possibilità di almeno un falso positivo per tre contrasti ortogonali e 0,12 possibilità per tre contrasti non ortogonali come sopra. È molto vicino. La differenza è molto più grande per la possibilità di ottenere tutti e tre i falsi positivi: 0,0001 e 0,002. Quindi capisco che ottenere diversi risultati significativi è molto più probabile con i non-orth. contrasta, ma se ci si preoccupa del tasso di errore familiare, i due casi sembrano quasi identici. n = 10 α = 0,05N(0,1)n=10α=0.05
ameba dice Ripristina Monica il

6

Indica con il livello di significatività corretto, quindi Bonferroni funziona in questo modo: dividi il livello di significatività per il numero di test, ovvero . Sidak funziona in questo modo (se il test è indipendente): . α n α = α / n α = 1 - ( 1 - α ) 1 / nααnα=α/nα=1(1α)1/n

Poiché , la correzione Sidak è un po 'più potente (ovvero si ottengono risultati significativi più facilmente) ma Bonferroni è un po' più semplice da gestire.α/n<1(1α)1/n

Se hai bisogno di una procedura ancora più potente, potresti voler utilizzare la procedura Bonferroni-Holm.


Perché Bonferroni è più semplice da gestire?
Emily,

3
Trovo che dividere per algebricamente sia più semplice che calcolare , ma sono pigro. Anche Bonferroni non assume indifferenza, quindi è "più semplice" nel senso di assumere di meno. Ma paghi il prezzo perché è più conservativo. n 1 - ( 1 - α ) 1 / nαn1(1α)1/n
Momo,

@Momo I computer sono davvero bravi in ​​aritmetica, quindi non trovo l'argomento della semplicità molto convincente. Cento anni fa, quando i calcoli venivano eseguiti a mano, naturalmente era una storia molto diversa.
Michael McGowan,

+1 rispetto alla mia risposta, questo arriva al punto abbastanza brevemente ;-).
gung - Ripristina Monica

Haha è quello che pensavo intendessi! Grazie mille!
Emily,

5

La correzione di Sidak presuppone che i singoli test siano statisticamente indipendenti. La correzione Bonferroni non assume questo.


Ciò significa che il Bonferroni è semplicemente un test più conservativo?
Emily,

1
Bonferroni è più conservativo quando entrambi i test sono appropriati. Ma se i tuoi test non sono indipendenti, non dovresti usare Sidak.
onestop

2
+1 Che la correzione di Bonferroni non richieda che i test siano indipendenti è un buon punto che non ho trattato.
gung - Ripristina Monica

@onestop: cosa significa che i test sono indipendenti? Potresti forse fare un esempio?
Gunnhild,

1
La correzione Sidak non richiede indipendenza. Presuppone solo che i test non siano negativamente dipendenti. La dipendenza positiva va bene.
Bonferroni,

4

Sidak e Bonferroni sono così simili che probabilmente otterrai lo stesso risultato indipendentemente dalla procedura che usi. Bonferroni è solo leggermente più conservatore di Sidak. Ad esempio, per 2 confronti e un valore alfa familiare di 0,05, Sidak avrebbe condotto ogni test a 0,0253 e Bonferroni avrebbe condotto ogni test a 0,00250.

Molti commentatori su questo sito hanno affermato che Sidak è valido solo quando le statistiche dei test dei tuoi confronti sono indipendenti. Non è vero. Sidak consente una leggera inflazione del tasso di errore a livello familiare quando le statistiche dei test dipendono NEGATIVAMENTE, ma se si eseguono test a due facciate, la dipendenza negativa non è generalmente un problema. Sotto dipendenza non negativa, Sidak fornisce in effetti un limite superiore al tasso di errore familiare. Detto questo, ci sono altre procedure che forniscono un tale limite e tendono a conservare più potere statistico di Sidak. Quindi Sidak probabilmente non è la scelta migliore.

Una cosa che prevede la procedura Bonferroni (che Sidak non ha) è il controllo rigoroso del numero previsto di errori di tipo I - il cosiddetto "tasso di errore per famiglia", che è più conservativo del tasso di errore familiare. Per maggiori informazioni, vedi: Frane, AV (2015) "I tassi di errore per famiglia di tipo I sono rilevanti nella scienza sociale e comportamentale?" Journal of Modern Applied Statistical Methods 14 (1), 12-23.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.