Qual è la differenza tra intervalli di confidenza e test di ipotesi?


28

Ho letto delle controversie riguardanti il ​​test delle ipotesi con alcuni commentatori che suggeriscono che il test delle ipotesi non dovrebbe essere usato. Alcuni commentatori suggeriscono di utilizzare invece intervalli di confidenza .

  • Qual è la differenza tra intervalli di confidenza e test di ipotesi? Spiegazione con riferimento ed esempi sarebbe apprezzata.

5
Penso che tu voglia chiederti perché riportare i risultati dei test di ipotesi mostrando l'intervallo di confidenza è meglio che dire semplicemente che qualcosa è confermato o rifiutato a un certo livello di valore p.

3
Dovresti considerare di controllare alcune delle tue altre domande come risposte.
Andy W

Risposte:


19

È possibile utilizzare un intervallo di confidenza (CI) per il test delle ipotesi. Nel caso tipico, se l'elemento della configurazione per un effetto non si estende su 0, è possibile rifiutare l'ipotesi nulla. Ma un elemento della configurazione può essere utilizzato per altro, mentre segnalare se è stato superato è il limite dell'utilità di un test.

Il motivo per cui ti consigliamo di usare CI invece di un semplice test t, ad esempio, è perché puoi fare molto più che testare le ipotesi. Puoi fare una dichiarazione sulla gamma di effetti che ritieni probabili (quelli nell'IC). Non puoi farlo con un solo test t. Puoi anche usarlo per fare dichiarazioni sul null, cosa che non puoi fare con un t-test. Se il t-test non rifiuta il null allora dite semplicemente che non potete rifiutare il null, il che non significa molto. Ma se hai un intervallo di confidenza stretto attorno al null, puoi suggerire che il null, o un valore vicino ad esso, è probabilmente il valore vero e suggerire che l'effetto del trattamento, o variabile indipendente, è troppo piccolo per essere significativo ( o che il tuo esperimento non

Aggiunto in seguito: avrei davvero dovuto dirlo, mentre è possibile utilizzare un elemento della configurazione come un test, non è uno. È una stima di un intervallo in cui si ritiene che risiedano i valori dei parametri. Puoi fare test come inferenze ma stai molto meglio se non ne parli in quel modo.

Che è migliore?

A) L'effetto è 0,6, t (29) = 2,8, p <0,05. Questo effetto statisticamente significativo è ... (alcuni ne deriva di discussione su questo significatività statistica, senza alcuna menzione di o anche una forte capacità di discutere l'implicazione pratica della grandezza del ritrovamento ... in un quadro di Neyman-Pearson la grandezza del t e i valori di p sono praticamente insignificanti e tutto ciò di cui puoi discutere è se l'effetto è presente o non è stato trovato per essere presente. Non puoi mai davvero parlare del fatto che non c'è effettivamente un effetto basato sul test.)

o

B) Utilizzando un intervallo di confidenza al 95%, stimo che l'effetto sia compreso tra 0,2 e 1,0. (alcune discussioni seguono il parlare dell'effettivo effetto dell'interesse, se i suoi valori plausibili sono quelli che hanno un significato particolare e qualsiasi uso della parola significativo per esattamente ciò che dovrebbe significare. Inoltre, la larghezza dell'IC può andare direttamente a una discussione sul fatto che si tratti di una conclusione forte o se si può solo giungere a una conclusione più incerta)

Se hai preso una classe di statistica di base potresti inizialmente gravitare verso A. E ci possono essere alcuni casi in cui è un modo migliore per riportare un risultato. Ma per la maggior parte del lavoro B è di gran lunga superiore. Una stima dell'intervallo non è un test.


Un'aggiunta ai commenti di @john: in primo luogo, a volte la domanda chiave è se l'IC si estende su 1, non su 0 (ad es. Regressione logistica).
Peter Flom - Ripristina Monica

Ragazzi, è 1 o è 0? (Questo mi sembra molto illuminante, quindi immagino, ho bisogno di imparare il valore corretto a cui prestare
attenzione

Qual è la relazione tra IC al 95% e ipotesi di test a due code con alfa = 0,05? sono uguali? Se no allora come?
love-stats

love-stats, se usate allo stesso modo sono uguali.
Giovanni

Adhesh Josh, l'ipotesi nulla può essere qualsiasi valore fisso specificato in precedenza. Questa è un'altra caratteristica dell'IC rispetto al semplice NHST. È molto facile da usare quando si desidera verificare un valore ipotetico diverso da 0.
Giovanni

7

Esiste un'equivalenza tra test di ipotesi e intervalli di confidenza. (vedi ad esempio http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing ) Faccio un esempio molto specifico. Supponiamo di avere un esempio da una distribuzione normale con media e varianza 1, che scriveremo come . Supponiamo di pensare che , e vogliamo testare l'ipotesi nulla , a livelloQuindi facciamo una statistica di test, che in questo caso considereremo la media del campione: . Supponiamo orax1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)è la "regione di accettazione" per per questo test. Ciò significa che è l'insieme dei possibili valori di per i quali l'ipotesi nulla è accettata al livello 0,05 (utilizzo "accettato" come abbreviazione di "non rifiutato" - Non sto suggerendo che tu possa concludere che l'ipotesi nulla è vera). Per questo esempio, possiamo guardare la distribuzione normale e scegliere qualsiasi set che abbia probabilità almeno 0,95 in questa distribuzione. Ora, una regione di confidenza al 95% per è l'insieme di tutti per cui è in . In altre parole, è l'insieme di tuttivA(m)vμ=mN(m,1)μmvA(m)mper il quale l'ipotesi nulla sarebbe accettata per l'osservato . Ecco perché John dice "Se l'IC per un effetto non si estende su , puoi rifiutare l'ipotesi nulla". (John si riferisce al caso di test )v0μ=0

Un argomento correlato è il valore p. Il valore p è il livello più piccolo per un test al quale rifiuteremmo l'ipotesi nulla. Per collegarlo alla discussione sugli intervalli di confidenza, supponiamo di ottenere una media esempio particolare , dalla quale costruiamo intervalli di confidenza di dimensioni diverse. Supponiamo che un intervallo di confidenza al 95% per non contenga . Quindi possiamo rifiutare l'ipotesi nulla al livello Supponiamo quindi di aumentare l'intervallo di confidenza fino a quando non tocca (ma non include) il valore , e supponiamo che questo sia un intervallo di confidenza del 98%. Quindi il valore p per l'ipotesi è (da cui otteniamovμmμ=m0.05.mμ=m0.0210.98 ).


Si prega di leggere questo come valore-p non può essere interpretato come il più piccolo livello di test per rifiutare null. "È già stato dimostrato che l'interpretazione dei valori di p in esperimenti singoli (o in corso) non è consentita in un contesto di verifica delle ipotesi di Neyman-Pearson. Il calcolo del valore di p dipende solo dalla verità dell'ipotesi nulla. Il valore di p non misura la quantità di prove a sostegno di HA; si tratta di una misura di prove induttive contro H0. " 'Fonte: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22

@ sree22 puoi approfondire questo o suggerire una riformulazione? Stavo cercando di dare una definizione di valore p in questo contesto, non un'interpretazione.
David R

3

"Studente" ha sostenuto intervalli di confidenza sulla base del fatto che potevano mostrare quali effetti erano più importanti e quali erano più significativi.

Ad esempio, se hai trovato due effetti in cui il primo ha avuto un intervallo di confidenza per il suo impatto finanziario da £ 5 a £ 6, mentre il secondo ha avuto un intervallo di confidenza da £ 200 a £ 2800. Il primo è statisticamente più significativo, ma il secondo è probabilmente più importante.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.