Come testare l'ipotesi di nessuna differenza di gruppo?


39

Immagina di avere uno studio con due gruppi (ad esempio, maschi e femmine) guardando una variabile numerica dipendente (ad esempio, punteggi dei test di intelligenza) e hai l'ipotesi che non ci siano differenze di gruppo.

Domanda:

  • Qual è un buon modo per verificare se non ci sono differenze di gruppo?
  • Come determinereste le dimensioni del campione necessarie per testare adeguatamente le differenze di gruppo?

Pensieri iniziali:

  • Non sarebbe sufficiente fare un test t standard perché un fallimento nel respingere l'ipotesi nulla non significa che il parametro di interesse sia uguale o vicino a zero; questo è particolarmente vero con piccoli campioni.
  • Potrei guardare l'intervallo di confidenza al 95% e verificare che tutti i valori siano entro un intervallo sufficientemente piccolo; forse più o meno 0,3 deviazioni standard.

cosa intendi con "questo presuppone che l'ipotesi nulla sia vera"?
Robin Girard,

Se vuoi essere in grado di controllare la probabilità di dichiarare erroneamente "c'è una differenza" devi separare le due ipotesi (ho già detto che adoro questa citazione: stats.stackexchange.com/questions/726/… ;))
Robin Girard,

@Robin il valore p di un test di significatività dell'ipotesi nulla è la probabilità di vedere come o più dati estremi di quello osservato assumendo che l'ipotesi nulla sia vera; ma forse potrei esprimere meglio la frase sopra.
Jeromy Anglim,

@Robin Ho modificato la domanda per cercare di chiarire il mio punto
Jeromy Anglim

Risposte:


20

Penso che tu stia chiedendo di verificare l'equivalenza . In sostanza devi decidere quanto è accettabile una differenza per poter ancora concludere che i due gruppi sono effettivamente equivalenti. Tale decisione definisce i limiti dell'intervallo di confidenza al 95% (o altro) e su questa base vengono effettuati calcoli sulla dimensione del campione.

C'è un intero libro sull'argomento.

Un "equivalente" clinico molto comune di test di equivalenza è un test / prova di non inferiorità . In questo caso "preferisci" un gruppo rispetto all'altro (un trattamento stabilito) e progetti il ​​tuo test per dimostrare che il nuovo trattamento non è inferiore al trattamento stabilito a un certo livello di evidenza statistica.

Penso di aver bisogno di accreditare Harvey Motulsky per il sito GraphPad.com (sotto "Biblioteca" ).


16

Oltre alla già menzionata possibilità di un qualche tipo di test di equivalenza , di cui la maggior parte di loro, per quanto ne sappia, sono per lo più indirizzati nella buona vecchia tradizione frequentista, esiste la possibilità di condurre test che forniscono realmente una quantificazione delle prove in favore di un'ipotesi nulla, vale a dire prove bayesiane .

Un'implementazione di un test t bayesiano è disponibile qui: Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Come quantificare il supporto a favore e contro l'ipotesi nulla: un'implementazione flessibile di WinBUGS di un t-test bayesiano predefinito. Bollettino psicologico e revisione, 16, 752-760.

C'è anche un tutorial su come eseguire tutto ciò in R:

http://www.ruudwetzels.com/index.php?src=SDtest


Un'alternativa (forse un approccio più moderno) di un test t bayesiano è fornita (con codice) in questo documento di Kruschke:

Kruschke, JK (2013). La stima bayesiana sostituisce il test t . Journal of Experimental Psychology: General , 142 (2), 573–603. doi: 10,1037 / a0029146


Tutti i suggerimenti per questa risposta (prima dell'aggiunta di Kruschke) dovrebbero andare al mio collega David Kellen. Ho rubato la sua risposta a questa domanda .


Mi chiedevo se qualcuno avrebbe fornito un approccio bayesiano. Eccellente. Grazie.
Jeromy Anglim,

1
Potrebbe valere la pena aggiornare questa risposta per includere un riferimento al fantastico pacchetto BayesFactor per R.
crsh


8

Ci sono alcuni documenti che conosco che potrebbero esserti utili:

Tryon, WW (2001). Valutazione della differenza statistica, equivalenza e indeterminatezza utilizzando intervalli di confidenza inferenziale: un metodo alternativo integrato per condurre test statistici di ipotesi nulla. Metodi psicologici, 6, 371-386. ( PDF GRATUITO )

E una correzione:
Tryon, WW e Lewis, C. (2008). Un metodo di intervallo di confidenza inferenziale per stabilire l'equivalenza statistica che corregge il fattore di riduzione di Tryon (2001). Metodi psicologici, 13, 272-278. ( PDF GRATUITO )

Inoltre:

Seaman, MA & Serlin, RC (1998). Intervalli di confidenza di e quivalenza per confronti a due gruppi di mezzi . Metodi psicologici, Vol 3 (4), 403-411.


Ci sono tonnellate di documenti e persino libri su questo argomento.
Michael R. Chernick,

7

Di recente ho pensato a un modo alternativo di "test di equivalenza" basato su una distanza tra le due distribuzioni piuttosto che tra i loro mezzi.

Esistono alcuni metodi che forniscono intervalli di confidenza per la sovrapposizione di due distribuzioni gaussiane:inserisci qui la descrizione dell'immagine

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

O(P1,P2)>0.9P1P20.110%

μ1μ2

|μ1μ2|TV(P1,P2)

|μ1μ2|σ


Hai qualche risorsa che mostra la sovrapposizione utilizzata in alcuni problemi reali? Sembra incredibilmente promettente, ma non mi è chiaro come si applicherebbe in un problema reale (dove le tue conclusioni sono potenzialmente diverse fasi rimosse da "questa distribuzione è abbastanza simile a X", rendendo così un po 'difficile vedere come Il 10% della TV si traduce in dimensioni di impatto sulle inferenze).
Stumpy Joe Pete,

1
@StumpyJoePete Ho scritto qualcosa con lo stesso spirito sul mio blog: stla.github.io/stlapblog/posts/…
Stéphane Laurent

5

Nelle scienze mediche, è preferibile utilizzare un approccio con intervallo di confidenza rispetto a due test unilaterali (tost). Raccomando anche di rappresentare graficamente le stime puntuali, gli EC e i margini di equivalenza determinati a priori per chiarire le cose.

La tua domanda verrebbe probabilmente affrontata da un simile approccio.

Le linee guida CONSORT per gli studi di non inferiorità / equivalenza sono abbastanza utili a questo proposito.

Vedi Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ e CONSORT Group. Segnalazione di studi randomizzati di non inferiorità ed equivalenza: un'estensione della dichiarazione CONSORT. JAMA. 2006, 8 marzo; 295 (10): 1152-60. (Link al testo completo.)


1
Non direi necessariamente che gli intervalli di confidenza sono preferiti. In effetti gli intervalli di confidenza corrispondono ai test di ipotesi. Il TOST può essere ottenuto osservando gli intervalli di confidenza ottenuti intersecando i due intervalli di confidenza unilaterali che corrispondono ai due test t unilaterali utilizzati nella procedura.
Michael R. Chernick,

4

Sì. Questo è un test di equivalenza. Fondamentalmente si inverte l'ipotesi nulla e alternativa e si basa la dimensione del campione sulla potenza per mostrare che la differenza dei mezzi è all'interno della finestra di equivalenza. Blackwelder lo ha definito "Provare l'ipotesi nulla". Questo è comunemente fatto negli studi clinici farmaceutici in cui viene testata l'equivalenza di un farmaco generico con il farmaco commercializzato o un farmaco approvato viene confrontato con una nuova formulazione (spesso chiamata bioequivalenza). La versione unilaterale è chiamata non inferiorità. Alcune volte un farmaco può essere approvato semplicemente dimostrando che il nuovo farmaco non è inferiore al concorrente commercializzato. Shao e Pigeot hanno sviluppato un approccio bootstrap coerente alla bioequivalenza usando i design crossover.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.