Dovremmo affrontare più rettifiche di confronto quando si utilizzano intervalli di confidenza?


27

Supponiamo di avere uno scenario di confronti multipli come l' inferenza post hoc su statistiche a coppie o come una regressione multipla, in cui stiamo facendo un totale di m confronti. Supponiamo anche che vorremmo sostenere l'inferenza in questi multipli usando intervalli di confidenza.

1. Applichiamo più aggiustamenti di confronto agli EC? Cioè, proprio come più confronti costringono una ridefinizione di α al tasso di errore familiare (FWER) o al tasso di scoperta falsa (FDR), fa il significato di fiducia (o credibilità 1 , o incertezza, o previsione, o inferenziale ... scegli il tuo intervallo) viene modificato in modo simile da più confronti? Mi rendo conto che una risposta negativa qui solleverà le mie restanti domande.

2. Esistono traduzioni dirette di molteplici procedure di aggiustamento del confronto dal test delle ipotesi alla stima degli intervalli? Ad esempio, sarebbe regolazioni concentrarsi sulla modifica del CI-level termine nell'intervallo di confidenza: CIθ=(θ^±t(1CI-level)/2σ^θ) ?

3. Come affronteremmo le procedure di controllo step-up o step-down per gli EC? Alcuni aggiustamenti del tasso di errore a livello familiare dall'approccio del test di ipotesi all'inferenza sono "statici" in quanto esattamente la stessa regolazione viene fatta per ogni inferenza separata. Ad esempio, l'adeguamento Bonferroni viene effettuato modificando il criterio di rifiuto da:

  • rifiutare se pα2 a:
  • rifiutare se pα2m ,

ma l'aggiustamento di Holm-Bonferroni non è "statico", ma piuttosto fatto da:

  • prima ordinando p -values ​​dal più piccolo al più grande, e poi
  • rifiutare se p1(1α2)1m+1i , (doveiindicizza l'ordinamento deivalorip) fino a
  • non riusciamo a respingere un'ipotesi nulla e automaticamente non riusciamo a respingere tutte le successive ipotesi null.

Poiché il rifiuto / mancato rifiuto non sta avvenendo con gli EC (più formalmente, vedere i riferimenti seguenti), ciò significa che le procedure graduali non si traducono (cioè includendo tutti i metodi FDR)? Dovrei notare a questo che sto Non chiedo come tradurre SID in test di ipotesi (i rappresentanti della letteratura 'visiva ipotesi di testing' indicato di seguito arrivare a quella domanda non banale).

4. Che dire di uno qualsiasi degli altri intervalli che ho citato tra parentesi in 1?


1 Accidenti, spero proprio di non avere problemi con quelli che scuotono i dolci, dolci stili bayesiani usando questa parola qui. :)


Riferimenti
Afshartous, D. e Preston, R. (2010). Intervalli di confidenza per dati dipendenti: equiparare la non sovrapposizione con il significato statistico. Statistiche computazionali e analisi dei dati , 54 (10): 2296–2305.

Cumming, G. (2009). Inferenza ad occhio: lettura della sovrapposizione di intervalli di confidenza indipendenti. Statistics In Medicine , 28 (2): 205–220.

Payton, ME, Greenstone, MH e Schenker, N. (2003). Intervalli di confidenza sovrapposti o intervalli di errore standard: cosa significano in termini di significatività statistica? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW e Lewis, C. (2008). Un metodo inferenziale di intervallo di confidenza per stabilire l'equivalenza statistica che corregge il fattore di riduzione di Tryon (2001). Metodi psicologici , 13 (3): 272–277.


Non ho tempo di cercare una risposta completa ora, quindi risponderò in un commento.
Harvey Motulsky,

[L'ultimo commento è stato troncato. [Non ho tempo di cercare una risposta completa ora, quindi risponderò in un commento. 1) Sì, ha senso nelle stesse situazioni dei paragoni multipli per il test delle ipotesi ha senso. 2. I confronti multipli di Bonferroni, Tukey e Dunnet possono essere facilmente adattati per fare intervalli di confidenza in cui il livello di confidenza si applica a tutta la famiglia. 3. Per quanto ne so, non è possibile effettuare intervalli di confidenza con il metodo Holm. 4. Non ne ho idea!
Harvey Motulsky,

2
pα

Risposte:


9

Un argomento eccellente a cui purtroppo non viene data sufficiente attenzione.

Quando si discutono più parametri e intervalli di confidenza, si dovrebbe fare una distinzione tra inferenza simultanea e inferenza selettiva . Rif. [2] offre un'eccellente dimostrazione della questione.

1α

Questi due concetti possono essere combinati: supponi di costruire intervalli solo su parametri per i quali hai respinto l'ipotesi nulla. Hai chiaramente a che fare con inferenza selettiva. Potresti voler garantire la copertura simultanea dei parametri selezionati o la copertura marginale dei parametri selezionati. Il primo sarebbe la controparte del controllo FWER e il secondo del controllo FDR.

Ora più al punto: non tutte le procedure di test hanno i loro intervalli di accompagnamento. Per le procedure FWER e i relativi intervalli di accompagnamento, vedere [3]. Purtroppo, questo riferimento è un po 'obsoleto. Per la controparte dell'intervallo del controllo FDR BH, vedere [1] e un'applicazione in [4] (che include anche una breve revisione della questione). Si prega di notare che questo è un campo di ricerca nuovo e attivo in modo da poter aspettarsi più risultati nel prossimo futuro.

[1] Benjamini, Y. e D. Yekutieli. "Intervalli di confidenza multipla adeguati al tasso di rilevazione falsi per parametri selezionati." Journal of American Statistical Association 100, n. 469 (2005): 71–81.

[2] Cox, DR "Una nota sui metodi di confronto multipli". Technometrics 7, n. 2 (1965): 223-24.

[3] Hochberg, Y. e AC Tamhane. Procedure di confronto multiplo. New York, New York, Stati Uniti: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD e Y. Benjamini. “Correlazioni selettive; Not Voodoo. ”NeuroImage 103 (dicembre 2014): 401–10.


1

Non lo farei mairegolare gli intervalli di confidenza per più test. Non sono un grande fan dei valori p, perché credo che la stima dei parametri sia un uso migliore delle statistiche rispetto alla verifica di ipotesi che non sono mai esattamente vere. Tuttavia, concedo che il test delle ipotesi ha il suo valore, ad esempio uno studio controllato randomizzato in cui almeno uno può sostenere che asintoticamente, se un trattamento non funziona, l'ipotesi nulla è vera. Tuttavia, come ho già detto altrove [1], di solito ciò comporta un risultato primario. Tuttavia, gli intervalli di confidenza, nella definizione di frequentista, non implicano ipotesi e quindi non necessitano di aggiustamenti per altri confronti, potenzialmente irrilevanti. Supponiamo che stia testando i fenotipi associati a un particolare gene, ad esempio altezza e pressione sanguigna. IO' Vorrei sapere quanto è grande la differenza di altezza tra quelli con e senza il gene e quanto bene l'ho stimata. Non vedo che il fatto che ho anche misurato la pressione sanguigna abbia qualcosa a che fare con esso. Dove potrebbe importare è che se questi due fossero gli unici significativi tra le centinaia che abbiamo testato. Quindi è probabile che le differenze siano, per caso, maggiori rispetto agli esperimenti controfattuali previsti in cui abbiamo misurato solo altezza e pressione sanguigna, ma lo abbiamo fatto centinaia di esperimenti. Tuttavia, in tali circostanze, nessun semplice aggiustamento funzionerebbe, e sarebbe meglio fornire la stima non corretta, ma chiarire come sono stati fatti questi confronti. Abbiamo anche pubblicato alcune impostazioni predefinite su intervalli di confidenza sovrapposti. [2] vedo che il fatto che ho anche misurato la pressione sanguigna ha qualcosa a che fare con esso. Dove potrebbe importare è che se questi due fossero gli unici significativi tra le centinaia che abbiamo testato. Quindi è probabile che le differenze siano, per caso, maggiori rispetto agli esperimenti controfattuali previsti in cui abbiamo misurato solo altezza e pressione sanguigna, ma lo abbiamo fatto centinaia di esperimenti. Tuttavia, in tali circostanze, nessun semplice aggiustamento funzionerebbe, e sarebbe meglio fornire la stima non corretta, ma chiarire come sono stati fatti questi confronti. Abbiamo anche pubblicato alcune impostazioni predefinite su intervalli di confidenza sovrapposti. [2] vedo che il fatto che ho anche misurato la pressione sanguigna ha qualcosa a che fare con esso. Dove potrebbe importare è che se questi due fossero gli unici significativi tra le centinaia che abbiamo testato. Quindi è probabile che le differenze siano, per caso, maggiori rispetto agli esperimenti controfattuali previsti in cui abbiamo misurato solo altezza e pressione sanguigna, ma lo abbiamo fatto centinaia di esperimenti. Tuttavia, in tali circostanze, nessun semplice aggiustamento funzionerebbe, e sarebbe meglio fornire la stima non corretta, ma chiarire come sono stati fatti questi confronti. Abbiamo anche pubblicato alcune impostazioni predefinite su intervalli di confidenza sovrapposti. [2] più grande degli esperimenti controfattuali previsti in cui abbiamo misurato solo altezza e pressione sanguigna, ma lo abbiamo fatto centinaia di esperimenti. Tuttavia, in tali circostanze, nessun semplice aggiustamento funzionerebbe, e sarebbe meglio fornire la stima non corretta, ma chiarire come sono stati fatti questi confronti. Abbiamo anche pubblicato alcune impostazioni predefinite su intervalli di confidenza sovrapposti. [2] più grande degli esperimenti controfattuali previsti in cui abbiamo misurato solo altezza e pressione sanguigna, ma lo abbiamo fatto centinaia di esperimenti. Tuttavia, in tali circostanze, nessun semplice aggiustamento funzionerebbe, e sarebbe meglio fornire la stima non corretta, ma chiarire come sono stati fatti questi confronti. Abbiamo anche pubblicato alcune impostazioni predefinite su intervalli di confidenza sovrapposti. [2]

[1] Campbell MJ e Swinscow TDV (2009) Statistics at Square One. 11 ° ed Oxford; BMJ Books Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Prevedere dove si troveranno i mezzi futuri sulla base dei risultati dell'attuale processo. Prove cliniche contemporanee, 28, 352-357.


1
Grazie per la risposta stimolante, Mike. Benjamini, Hochberg e Yekutieli sembrano sostenere che i confronti non sono "irrilevanti", ma di fatto simultanei: "È necessaria anche la copertura simultanea quando si deve intraprendere un'azione basata sul valore di tutti i parametri. Confrontando così gli endpoint primari tra due i trattamenti in uno studio clinico implicheranno probabilmente l'ispezione di tutti, indipendentemente dal fatto che siano significativamente diversi o meno. Questa è una situazione chiara in cui è necessaria una copertura simultanea. " (Lasciando da parte la questione della presentazione selettiva di solo alcuni elementi della configurazione.)
Alexis,

Per inciso, dato che "non sono un grande fan dei valori p, perché credo che la stima dei parametri sia un uso migliore delle statistiche rispetto al test di ipotesi che non sono mai esattamente vere", potresti apprezzare Perché il test delle ipotesi del frequentista diventa distorto verso il rifiuto del ipotesi nulla con campioni sufficientemente grandi? . Saluti.
Alexis,

1
Anche se concordo con te sul fatto che gli intervalli di confidenza per i parametri sono superiori ai valori p per la maggior parte delle forme di inferenza, non sono sicuro che ciò implichi necessariamente che non sia necessaria alcuna correzione per confronti multipli con gli intervalli di confidenza. La maggior parte degli intervalli di confidenza sono definiti dall'uso dell'alfa, per specificare la copertura. Anche se divorziato dal rigoroso quadro di verifica delle ipotesi, mi sembra (ingenuamente, senza preoccuparsi di fare simulazioni per verificare) che potrebbe essere fuorviante attenersi dogmaticamente alla copertura nominale (ad esempio 95%, quindi alfa = 0,05) quando si verificano più confronti coinvolti.
Ryan Simmons,

2
Mike Campbell ha affermato che "gli intervalli di confidenza, nella definizione di frequentista, non implicano ipotesi e quindi non necessitano di aggiustamenti per altri confronti, potenzialmente irrilevanti". Questa è un'affermazione strana. Sebbene gli EC possano non riflettere i "test di ipotesi" di per sé, essi riflettono test statistici che hanno un certo tasso di errore (ad es. 0,05) e che il tasso di errore viene gonfiato all'aumentare del numero di test, esattamente con lo stesso matematico di base principio che si applica ai test di ipotesi nulla. Uno non sfugge al problema di confronti multipli concentrandosi su CI anziché su valori p.
Bonferroni,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.