Rifiutare l'ipotesi usando il valore p equivale all'ipotesi non appartenente all'intervallo di confidenza?


29

Pur derivando formalmente l'intervallo di confidenza di una stima, ho finito con una formula che ricorda molto da vicino il modo in cui viene calcolato il valore .p

Quindi la domanda: sono formalmente equivalenti? Vale a dire che rifiuta un'ipotesi con un valore critico equivalente a non appartenente all'intervallo di confidenza con valore critico ?α 0 αH0=0α0α


2
@f coppens: sì, se vengono utilizzati due test, con statistiche diverse, si ottengono due diversi intervalli di confidenza. Ma penso che l'OP abbia scoperto un fatto di base: sia l'intervallo di confidenza che il valore p sono ottenuti dalla distribuzione della stessa statistica, quindi entrambi possono essere usati per decidere di rifiutare l'ipotesi nulla o meno.
StijnDeVuyst,

1
@StijnDeVuyst: l'intervallo Clopper / Pearon per una proporzione e l'intervallo Sterne per una proporzione sono entrambi derivati ​​dalla distribuzione binomiale con le stesse dimensioni (la p è sconosciuta perché trovano un intervallo di confidenza per p). La differenza tra Clopper / Pearson e Sterne è dovuta all'asimmetria della densità binomiale. L'intervallo Sterne cerca di minimizzare la larghezza dell'intervallo e Clopper_pearson cerca di mantenere la simmetria (ma a causa dell'asimmetria del Binomiale questo può essere trovato solo approssimativamente).

6
Non in generale, no. Considerare i casi in cui la larghezza dell'intervallo è una funzione del valore del parametro stimato, mentre per la prova la larghezza dell'intervallo è una funzione di quella ipotizzata. Un esempio ovvio sarebbe testare un binomio p. Usiamo il normale ca. per semplicità (anche se la forma dell'argomento non si basa su di essa). Considera n = 10 e un null di p = 0,5. Immagina di osservare 2 teste; il null non viene rifiutato (perché "2" è compreso in un intervallo del 95% circa 0,5) ma l'IC per p non include 0,5 (poiché l'IC è più stretto dell'intervallo di larghezza sotto il null.
Glen_b -Reinstate Monica

4
O se ne hai bisogno per essere abbastanza grande da far sì che l'approssimazione normale sia buona, prova 469 teste in 1000 lanci, per H0 p = 0,5; ancora una volta l'IC 95% per p non include 0,5 ma il test del 5% non rifiuta, poiché la larghezza dell'intervallo corrispondente in H0 è più ampia rispetto all'alternativa (che è ciò da cui si fa l'IC).
Glen_b -Restate Monica

4
@Glen_b: sembra che questa nuova domanda stats.stackexchange.com/questions/173005 fornisca un esempio della situazione che stavi descrivendo qui.
ameba dice di reintegrare Monica il

Risposte:


32

Sì e no.

Innanzitutto il "sì"

Quello che hai osservato è che quando un test e un intervallo di confidenza si basano sulla stessa statistica, esiste un'equivalenza tra loro: possiamo interpretare il valore come il valore più piccolo di per il quale il valore null del parametro verrebbe incluso nell'intervallo di confidenza .α 1 - αpα1α

Consenti a essere un parametro sconosciuto nello spazio parametri e lascia che l'esempio è una realizzazione della variabile casuale . Per semplicità, definire un intervallo di confidenza come intervallo casuale tale che la sua probabilità di copertura (Allo stesso modo si potrebbero considerare intervalli più generali, in cui la probabilità di copertura è delimitata o approssimativamente uguale a . Il ragionamento è analogo.)Θ R x = ( x 1 , , x n ) X nR n X = ( X 1 , , X n ) I α ( X ) P θ ( θ I α ( X ) ) = 1 - αθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) 1 - α

Pθ(θIα(X))=1αfor all α(0,1).
1α

Si consideri un test fronte-retro dell'ipotesi punto-nullo rispetto all'alternativa . Let denota il valore p del test. Per ogni , viene rifiutato al livello if . Il livello regione di rifiuto è l'insieme di che porta al rifiuto di : H 1 ( θ 0 ) : θ θ 0 λ ( θ 0 , x ) α ( 0 ,H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)H 0 ( θ 0 ) α λ ( θ 0 , x ) α α x H 0 ( θ 0 ) Rα(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Consideriamo ora una famiglia di test su due lati con valori p , per . Per una tale famiglia possiamo definire una regione di rifiuto invertitaθ Θ Q α ( x ) = { θ Θ : λ ( θ , x ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Per qualsiasi fisso , viene rifiutato se , che si verifica se e solo se , cioè, Se il test si basa su una statistica di test con una distribuzione nulla assolutamente continua completamente specificata, allora in . Quindi Poiché questa equazione vale per qualsiasiH 0 ( θ 0 ) xR α ( θ 0 ) θ 0Q α ( x ) x ) ) , Q αθ0H0(θ0)xRα(θ0)θ0Qα(x)λ ( θ 0 , X ) U ( 0 , 1 ) H 0 ( θ 0

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( λ ( θ 0 , X ) α ) = α . θ 0Θ P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( θ 0Q α ( XH0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θe poiché l'equazione sopra implica che ne consegue che l'insieme casuale copre sempre il vero parametro con probabilità . Di conseguenza, lasciando che denoti il ​​complemento di , per tutti abbiamo il che significa che il complemento della regione di rifiuto invertita è un intervallo di confidenza per .
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
θ 0 α Q C α ( x ) Q α ( x ) θ 0Θ P θ 0 ( θ 0Q C α ( X ) ) = 1 - α , 1 - α θQα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

Di seguito viene fornita un'illustrazione, che mostra le regioni di rifiuto e gli intervalli di confidenza corrispondenti allo -test per una media normale, per diverse medie null e diverse medie campionarie , con . viene rifiutato se trova nella regione grigio chiaro ombreggiata. Viene mostrato in grigio scuro la regione di rifiuto e l'intervallo di confidenza . θ ˉ x σ = 1 H 0 ( θ ) ( ˉ x , θ ) R 0.05 ( - 0.9 ) =zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)inserisci qui la descrizione dell'immagine

(Molto di questo è tratto dalla mia tesi di dottorato .)

Ora per il "no"

Sopra ho descritto il modo standard di costruire intervalli di confidenza. In questo approccio, utilizziamo alcune statistiche relative al parametro sconosciuto per costruire l'intervallo. Ci sono anche intervalli basati su algoritmi di minimizzazione, che cercano di ridurre al minimo la lunghezza della condizione intervallo sul valore di . Di solito, tali intervalli non corrispondono a un test.θX

Questo fenomeno ha a che fare con problemi legati al fatto che tali intervalli non vengono annidati, il che significa che l'intervallo del 94% può essere più breve dell'intervallo del 95%. Per ulteriori informazioni al riguardo, consultare la Sezione 2.5 di questo mio recente documento (che apparirà a Bernoulli).

E un secondo "no"

In alcuni problemi, l'intervallo di confidenza standard non si basa sulla stessa statistica del test standard (come discusso da Michael Fay in questo documento ). In questi casi, gli intervalli di confidenza e i test potrebbero non dare gli stessi risultati. Ad esempio, può essere rifiutato dal test anche se 0 è incluso nell'intervallo di confidenza. Ciò non contraddice il "sì" sopra, poiché vengono utilizzate statistiche diverse.θ0=0

E a volte "sì" non è una buona cosa

Come sottolineato da F Coppens in un commento, a volte intervalli e test hanno obiettivi alquanto contrastanti. Vogliamo brevi intervalli e test con alta potenza, ma l'intervallo più breve non corrisponde sempre al test con la massima potenza. Per alcuni esempi di questo, vedi questo documento (distribuzione normale multivariata), o questo (distribuzione esponenziale), o la Sezione 4 della mia tesi .

I bayesiani possono anche dire sia sì che no

Alcuni anni fa, ho pubblicato qui una domanda sull'esistenza di un'equivalenza intervallo di prova anche nelle statistiche bayesiane. La risposta breve è che usando il test di ipotesi bayesiana standard, la risposta è "no". Riformulando un po 'il problema dei test, la risposta può essere comunque "sì". (I miei tentativi di rispondere alla mia domanda alla fine si sono trasformati in un documento !)


2
Bella risposta (+1) e (in parte lo fai) può essere utile sottolineare il fatto che a volte intervalli di confidenza e test di ipotesi hanno obiettivi (potenzialmente) contrastanti: si cerca di trovare un intervallo di confidenza "il più piccolo possibile" mentre per il test delle ipotesi si cerca di trovare una regione critica "il più potente possibile".

@fcoppens: grazie per il suggerimento! Ho aggiornato la mia risposta con alcune righe a riguardo.
Martedì

Bella tesi! Hai lavorato anche sull'intervallo Sterne?

@fcoppens: Sì, ho fatto un po 'di lavoro nell'intervallo Sterne, principalmente in questo documento
MånsT

7
@amoeba: In realtà, penso che il suo "no" sia il mio secondo "no". Per quanto ne so, basa l'intervallo di confidenza sulla statistica e il test sulla statistica . Nota la differenza nel denominatore. È possibile costruire test e intervalli utilizzando entrambe le statistiche e finché si utilizza la stessa statistica per entrambi, non vi sarà alcuna discrepanza. T2=(p-p)/T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
Martedì

2

Quando si osserva un singolo parametro, è possibile che un test sul valore del parametro e sull'intervallo di confidenza "non corrispondano" a seconda di come sono costruiti. In particolare, un test di ipotesi è un livello -test, se rifiuta l'ipotesi nulla una proporzione del tempo in cui l'ipotesi nulla è vera. Per questo motivo, ad esempio, è possibile utilizzare le stime dei parametri del modello (ad esempio la varianza) che sono validi solo in base all'ipotesi nulla. Se poi si provasse a costruire un CI capovolgendo questo test, la copertura potrebbe non essere del tutto corretta sotto l'ipotesi alternativa. Per questo motivo, di solito si costruisce un intervallo di confidenza in modo diverso in modo che la copertura sia proprio sotto l'alternativa, che può quindi portare a una (solitamente molto piccola) discrepanza.ααα

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.