Sì, ci sono alcune semplici relazioni tra confronti dell'intervallo di confidenza e test di ipotesi in una vasta gamma di impostazioni pratiche. Tuttavia, oltre a verificare che le procedure CI e il test t siano appropriati per i nostri dati, dobbiamo verificare che le dimensioni del campione non siano troppo diverse e che i due set abbiano deviazioni standard simili. Inoltre, non dovremmo cercare di derivare valori p altamente precisi dal confronto tra due intervalli di confidenza, ma dovremmo essere lieti di sviluppare approssimazioni efficaci.
Nel tentativo di conciliare le due risposte già fornite (da @John e @Brett), aiuta ad essere matematicamente esplicito. È una formula per un intervallo di confidenza bilaterale simmetrico appropriato per l'impostazione di questa domanda
CI = m ± tα( n ) sn--√
dove è la media campionaria di osservazioni indipendenti, è la deviazione standard del campione, è la dimensione del test desiderata (tasso massimo di falsi positivi) e è il percentile superiore del Distribuzione student t con gradi di libertà . (Questa leggera deviazione dalla notazione convenzionale semplifica l'esposizione eliminando qualsiasi necessità di agitarsi sulla distinzione vs , che sarà comunque insignificante.)mnS2 αtα( n )1 - αn - 1n n - 1 n - 1
Utilizzando pedici e per distinguere due serie indipendenti di dati per il confronto, con corrispondente al maggiore dei due mezzi, un non -overlap di intervalli di confidenza è espressa dalla disuguaglianza (limite di confidenza inferiore 1) (limite di confidenza superiore 2); cioè. ,121>>
m1- tα( n1) s1n1--√> m2+ tα( n2) s2n2--√.
Questo può essere fatto assomigliare alla statistica t del corrispondente test di ipotesi (per confrontare i due mezzi) con semplici manipolazioni algebriche, cedendo
m1- m2S21/ n1+ s22/ n2-----------√> s1n2--√tα( n1) + s2n1--√tα( n2)n1S22+ n2S21---------√.
Il lato sinistro è la statistica utilizzata nel test di ipotesi; di solito viene confrontato con un percentile di una distribuzione t di Student con gradi di libertà: cioè a . Il lato destro è una media ponderata distorta dei percentili di distribuzione t originali.n1+ n2tα( n1+ n2)
L'analisi finora giustifica la risposta di @Brett: sembra che non ci siano relazioni semplici disponibili. Tuttavia, esaminiamo ulteriormente. Sono ispirato a farlo perché, intuitivamente, una non sovrapposizione di intervalli di confidenza dovrebbe dire qualcosa!
Innanzitutto, nota che questa forma del test di ipotesi è valida solo quando prevediamo che e saranno almeno approssimativamente uguali. (Altrimenti affrontiamo il famigerato problema di Behrens-Fisher e le sue complessità.) Controllando l'uguaglianza approssimativa di , potremmo quindi creare una semplificazione approssimativa nella formaS1S2s iSio
m1- m2s 1 / n1+ 1 / n2----------√> n2--√tα( n1) + n1--√tα( n2)n1+ n2------√.
Qui, . Realisticamente, non dovremmo aspettarci che questo confronto informale dei limiti di confidenza abbia le stesse dimensioni di . La nostra domanda allora è se esiste un tale che il lato destro sia (almeno approssimativamente) uguale alla statistica t corretta. Vale a dire, per quello che è il caso ches ≈ s1≈ s2αα'α'
tα'( n1+ n2) = n2--√tα( n1) + n1--√tα( n2)n1+ n2------√?
Si scopre che a parità di dimensioni del campione, e sono collegati (con una precisione piuttosto elevata) da una legge di potenza. αα' Ad esempio, ecco un diagramma dei due registri per i casi (linea blu più bassa), (linea rossa centrale), (linea d'oro più alta). La linea tratteggiata verde centrale è un'approssimazione descritta di seguito. La rettilineità di queste curve smentisce una legge di potere. Varia con , ma non molto.n1= n2= 2n1= n2= 5n1= n2= ∞n = n1= n2
La risposta dipende dal set , ma è naturale chiedersi quanto varia davvero con i cambiamenti nelle dimensioni del campione. In particolare, potremmo sperare che per dimensioni del campione da moderate a grandi (forse o successive) le dimensioni del campione fanno poca differenza. In questo caso, potremmo sviluppare un modo quantitativo per mettere in relazione con .{ n1, n2}n1≥ 10 , n2≥ 10α ′ αα'α
Questo approccio risulta funzionare a condizione che le dimensioni del campione non siano troppo diverse tra loro. Nello spirito della semplicità, riferirò una formula omnibus per calcolare la dimensione del test corrispondente alla dimensione dell'intervallo di confidenza . Èα'α
α'≈ e α1.91;
questo è,
α'≈ exp( 1 + 1,91 log( α ) ) .
Questa formula funziona abbastanza bene in queste situazioni comuni:
Entrambe le dimensioni del campione sono vicine tra loro, e non è troppo estremo ( o giù di lì).n1≈ n2αα > .001
Una dimensione del campione è circa tre volte l'altra e la più piccola non è troppo piccola (approssimativamente, maggiore di ) e di nuovo non è troppo estrema.10α
Una dimensione del campione è entro tre volte l'altra e o giù di lì.α > .02
Qui viene tracciato l'errore relativo (valore corretto diviso per l'approssimazione) nella prima situazione, con la riga inferiore (blu) che mostra il caso , la riga centrale (rossa) il caso e la riga superiore (in oro) il caso . Interpolando tra questi due ultimi, vediamo che l'approssimazione è eccellente per una vasta gamma di valori pratici di quando le dimensioni del campione sono moderate (circa 5-50) e altrimenti sono ragionevolmente buone.n1= n2= 2n1= n2= 5n1= n2= ∞α
Questo è più che sufficiente per osservare un sacco di intervalli di confidenza.
Riassumendo, il fallimento di due intervalli di confidenza di dimensioni dei mezzi per sovrapporsi è una prova significativa di una differenza nelle medie a un livello pari a , a condizione che i due campioni abbiano deviazioni standard approssimativamente uguali e siano approssimativamente della stessa dimensione.2 α2 e α1.91
Concluderò con una tabulazione dell'approssimazione per i valori comuni di .2 α
2 α 2 α'
0.1 0.02
0,05 0,005
0,01 0,0002
0,005 0,00006
Ad esempio, quando una coppia di IC al 95% su due lati ( ) per campioni di dimensioni approssimativamente uguali non si sovrappone, dovremmo prendere i mezzi per essere significativamente diversi, . Il valore p corretto (per uguali dimensioni del campione ) è compreso tra ( ) e ( ).2 α = .05p < .005n0,0037n = 20,0056n = ∞
Questo risultato giustifica (e spero migliora) la risposta di @John. Pertanto, anche se le risposte precedenti sembrano essere in conflitto, entrambe sono (a modo loro) corrette.