Relazione tra intervallo di confidenza e verifica dell'ipotesi statistica per il test t


31

È noto che gli intervalli di confidenza e la verifica delle ipotesi statistiche sono fortemente correlati. Le mie domande si concentrano sul confronto delle medie per due gruppi basato su una variabile numerica. Supponiamo che tale ipotesi sia verificata usando t-test. Dall'altro lato, si possono calcolare intervalli di confidenza per mezzo di entrambi i gruppi. Esiste una relazione tra la sovrapposizione degli intervalli di confidenza e il rifiuto dell'ipotesi nulla che i mezzi siano uguali (a favore dell'alternativa che significa diverso - test bilaterale)? Ad esempio, un test potrebbe rifiutare l'ipotesi nulla se gli intervalli di confidenza non si sovrappongono.

Risposte:


31

Sì, ci sono alcune semplici relazioni tra confronti dell'intervallo di confidenza e test di ipotesi in una vasta gamma di impostazioni pratiche. Tuttavia, oltre a verificare che le procedure CI e il test t siano appropriati per i nostri dati, dobbiamo verificare che le dimensioni del campione non siano troppo diverse e che i due set abbiano deviazioni standard simili. Inoltre, non dovremmo cercare di derivare valori p altamente precisi dal confronto tra due intervalli di confidenza, ma dovremmo essere lieti di sviluppare approssimazioni efficaci.

Nel tentativo di conciliare le due risposte già fornite (da @John e @Brett), aiuta ad essere matematicamente esplicito. È una formula per un intervallo di confidenza bilaterale simmetrico appropriato per l'impostazione di questa domanda

CI=m±tα(n)sn

dove è la media campionaria di osservazioni indipendenti, è la deviazione standard del campione, è la dimensione del test desiderata (tasso massimo di falsi positivi) e è il percentile superiore del Distribuzione student t con gradi di libertà . (Questa leggera deviazione dalla notazione convenzionale semplifica l'esposizione eliminando qualsiasi necessità di agitarsi sulla distinzione vs , che sarà comunque insignificante.)mns2αtα(n)1αn1n n - 1 n1

Utilizzando pedici e per distinguere due serie indipendenti di dati per il confronto, con corrispondente al maggiore dei due mezzi, un non -overlap di intervalli di confidenza è espressa dalla disuguaglianza (limite di confidenza inferiore 1) (limite di confidenza superiore 2); cioè. ,121>>

m1-tα(n1)S1n1>m2+tα(n2)S2n2.

Questo può essere fatto assomigliare alla statistica t del corrispondente test di ipotesi (per confrontare i due mezzi) con semplici manipolazioni algebriche, cedendo

m1-m2S12/n1+S22/n2>S1n2tα(n1)+S2n1tα(n2)n1S22+n2S12.

Il lato sinistro è la statistica utilizzata nel test di ipotesi; di solito viene confrontato con un percentile di una distribuzione t di Student con gradi di libertà: cioè a . Il lato destro è una media ponderata distorta dei percentili di distribuzione t originali.n1+n2tα(n1+n2)

L'analisi finora giustifica la risposta di @Brett: sembra che non ci siano relazioni semplici disponibili. Tuttavia, esaminiamo ulteriormente. Sono ispirato a farlo perché, intuitivamente, una non sovrapposizione di intervalli di confidenza dovrebbe dire qualcosa!

Innanzitutto, nota che questa forma del test di ipotesi è valida solo quando prevediamo che e saranno almeno approssimativamente uguali. (Altrimenti affrontiamo il famigerato problema di Behrens-Fisher e le sue complessità.) Controllando l'uguaglianza approssimativa di , potremmo quindi creare una semplificazione approssimativa nella formaS1S2s iSio

m1-m2S1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

Qui, . Realisticamente, non dovremmo aspettarci che questo confronto informale dei limiti di confidenza abbia le stesse dimensioni di . La nostra domanda allora è se esiste un tale che il lato destro sia (almeno approssimativamente) uguale alla statistica t corretta. Vale a dire, per quello che è il caso cheSS1S2αα'α'

tα'(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

Si scopre che a parità di dimensioni del campione, e sono collegati (con una precisione piuttosto elevata) da una legge di potenza. αα' Ad esempio, ecco un diagramma dei due registri per i casi (linea blu più bassa), (linea rossa centrale), (linea d'oro più alta). La linea tratteggiata verde centrale è un'approssimazione descritta di seguito. La rettilineità di queste curve smentisce una legge di potere. Varia con , ma non molto.n1=n2=2n1=n2=5n1=n2=n=n1=n2

Trama 1

La risposta dipende dal set , ma è naturale chiedersi quanto varia davvero con i cambiamenti nelle dimensioni del campione. In particolare, potremmo sperare che per dimensioni del campione da moderate a grandi (forse o successive) le dimensioni del campione fanno poca differenza. In questo caso, potremmo sviluppare un modo quantitativo per mettere in relazione con .{n1,n2}n110,n210α αα'α

Questo approccio risulta funzionare a condizione che le dimensioni del campione non siano troppo diverse tra loro. Nello spirito della semplicità, riferirò una formula omnibus per calcolare la dimensione del test corrispondente alla dimensione dell'intervallo di confidenza . Èα'α

α'eα1.91;

questo è,

α'exp(1+1.91log(α)).

Questa formula funziona abbastanza bene in queste situazioni comuni:

  • Entrambe le dimensioni del campione sono vicine tra loro, e non è troppo estremo ( o giù di lì).n1n2αα>.001

  • Una dimensione del campione è circa tre volte l'altra e la più piccola non è troppo piccola (approssimativamente, maggiore di ) e di nuovo non è troppo estrema.10α

  • Una dimensione del campione è entro tre volte l'altra e o giù di lì.α>.02

Qui viene tracciato l'errore relativo (valore corretto diviso per l'approssimazione) nella prima situazione, con la riga inferiore (blu) che mostra il caso , la riga centrale (rossa) il caso e la riga superiore (in oro) il caso . Interpolando tra questi due ultimi, vediamo che l'approssimazione è eccellente per una vasta gamma di valori pratici di quando le dimensioni del campione sono moderate (circa 5-50) e altrimenti sono ragionevolmente buone.n1=n2=2n1=n2=5n1=n2=α

Trama 2

Questo è più che sufficiente per osservare un sacco di intervalli di confidenza.

Riassumendo, il fallimento di due intervalli di confidenza di dimensioni dei mezzi per sovrapporsi è una prova significativa di una differenza nelle medie a un livello pari a , a condizione che i due campioni abbiano deviazioni standard approssimativamente uguali e siano approssimativamente della stessa dimensione.2α2eα1.91

Concluderò con una tabulazione dell'approssimazione per i valori comuni di .2α

2α 2α'
0.1 0.02

0,05 0,005

0,01 0,0002

0,005 0,00006

Ad esempio, quando una coppia di IC al 95% su due lati ( ) per campioni di dimensioni approssimativamente uguali non si sovrappone, dovremmo prendere i mezzi per essere significativamente diversi, . Il valore p corretto (per uguali dimensioni del campione ) è compreso tra ( ) e ( ).2α=.05p<.005n0,0037n=20,0056n=

Questo risultato giustifica (e spero migliora) la risposta di @John. Pertanto, anche se le risposte precedenti sembrano essere in conflitto, entrambe sono (a modo loro) corrette.


7

No, almeno non semplice.

Vi è, tuttavia, una corrispondenza esatta tra il test t della differenza tra due mezzi e l'intervallo di confidenza per la differenza tra i due mezzi.

Se l'intervallo di confidenza per la differenza tra due mezzi contiene zero, un test t per quella differenza non respingerebbe null allo stesso livello di confidenza. Allo stesso modo se l'intervallo di confidenza non contiene 0, il test t respingerebbe il valore nullo.

Ciò non equivale alla sovrapposizione tra intervalli di confidenza per ciascuno dei due mezzi.


La risposta di @John, che sebbene al momento non sia del tutto corretta nei dettagli, sottolinea correttamente che sì, è possibile mettere in relazione le sovrapposizioni di EC per testare i valori p. La relazione non è più complessa del test t stesso. Ciò sembra contraddire la tua conclusione principale, come indicato nella prima riga. Come risolveresti questa differenza?
whuber

Non penso che siano contraddittori. Posso aggiungere alcuni avvertimenti. Ma, in generale, senza ulteriori ipotesi e conoscenze sui parametri al di fuori della presentazione dell'intervallo (la varianza, la dimensione del campione) la risposta rimane così com'è. No, almeno non semplice.
Brett,

5

Sotto ipotesi tipiche di uguale varianza, sì, c'è una relazione. Se le barre si sovrappongono di meno della lunghezza di una barra * sqrt (2), un test t le troverebbe significativamente diverse in alpha = 0,05. Se le estremità delle barre si toccano appena, allora una differenza sarebbe trovata a 0,01. Se gli intervalli di confidenza per i gruppi non sono uguali, in genere si prende la media e si applica la stessa regola.

In alternativa, se la larghezza di un intervallo di confidenza attorno a una delle medie è w, la differenza meno significativa tra due valori è w * sqrt (2). Questo è semplice quando si pensa al denominatore nei gruppi indipendenti t-test, sqrt (2 * MSE / n) e al fattore per l'elemento della configurazione che, sqrt (MSE / n).

(Ipotesi IC 95%)

C'è un semplice documento su come fare inferenze da intervalli di confidenza intorno a mezzi indipendenti qui . Risponderà a questa domanda ea molte altre relative che potresti avere.

Cumming, G., & Finch, S. (2005, marzo). Inferenza ad occhio: intervalli di confidenza e come leggere immagini di dati. Psicologo americano , 60 (2), 170-180.


2
Credo che anche tu debba supporre che i due gruppi abbiano le stesse dimensioni.
whuber

all'incirca sì ...
Giovanni,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.