Perché non facciamo uso della distribuzione t per costruire un intervallo di confidenza per una proporzione?


18

Per calcolare l'intervallo di confidenza (CI) per la media con deviazione standard della popolazione sconosciuta (sd) stimiamo la deviazione standard della popolazione impiegando la distribuzione t. In particolare, CI=X¯±Z95%σX¯ dove σX¯=σn . Ma poiché non abbiamo una stima puntuale della deviazione standard della popolazione, stimiamo attraverso l'approssimazioneCI=X¯±t95%(se)dovese=sn

Contrastingly, per la proporzione della popolazione, per calcolare il CI, si approssima come CI=p^±Z95%(se) dove se=p^(1p^)n disponibilenp^15en(1p^)15

La mia domanda è: perché siamo soddisfatti della distribuzione standard per la proporzione della popolazione?


1
La mia intuizione dice che ciò è dovuto al fatto che per ottenere l'errore standard della media si ha un secondo sconosciuto, , che viene stimato dal campione per completare il calcolo. L'errore standard per la proporzione non comporta ulteriori incognite. σ
Ripristina Monica - G. Simpson il

@GavinSimpson Sembra convincente. In effetti il ​​motivo per cui abbiamo introdotto la distribuzione t è di compensare l'errore introdotto per compensare l'approssimazione della deviazione standard.
Abhijit,

3
Lo trovo meno che convincente in parte perché la distribuzione deriva dall'indipendenza della varianza del campione e della media del campione nei campioni da una distribuzione normale, mentre per i campioni da una distribuzione binomiale le due quantità non sono indipendenti. t
whuber

@Abhijit Alcuni libri di testo usano una distribuzione t come approssimazione per questa statistica (in determinate condizioni) - sembrano usare n-1 come df. Mentre devo ancora vedere un buon argomento formale per questo, l'approssimazione sembra spesso funzionare abbastanza bene; per i casi che ho verificato, in genere è leggermente migliore dell'approssimazione normale (ma per questo c'è un solido argomento asintotico che manca l'approssimazione t). [Modifica: i miei assegni erano più o meno simili a quegli spettacoli whuber; la differenza tra la z e la t è molto più piccola della loro discrepanza rispetto alla statistica]
Glen_b -Reinstate Monica

1
Può darsi che ci sia un possibile argomento (forse basato sui primi termini di un'espansione in serie per esempio) che potrebbe stabilire che la t dovrebbe quasi sempre essere migliore, o forse che dovrebbe essere migliore in alcune condizioni specifiche, ma io non ho visto alcun argomento di questo tipo. Personalmente generalmente mi attengo alla z ma non mi preoccupo se qualcuno usa una t.
Glen_b -Restate Monica

Risposte:


20

Sia la distribuzione normale che quella t di Student sono approssimazioni piuttosto scarse della distribuzione di

Z=p^pp^(1p^)/n

per i piccoli n, così scarso che l'errore sminuisce le differenze tra queste due distribuzioni.

Ecco un confronto di tre distribuzioni (omettendo i casi in cui p o 1 - p sono pari a zero, in cui è definito il rapporto) per n =p^1p^n=10,p=1/2:

Figura 1

La distribuzione "empirico" è quella di Z, che deve essere discreta perché le stime p sono limitati a un insieme finito { 0 , 1 / n , 2p^{0,1/n,2/n,,n/n}.

Il tdistribuzione t sembra fare un miglior lavoro di approssimazione.

Per n=30 ep=1/2, si può vedere la differenza tra le distribuzioni standard t Normale e studenti è del tutto trascurabile:

figura 2

Perché la distribuzione di Student t è più complicata rispetto allo Standard normale (è in realtà un'intera famiglia di distribuzioni indicizzata dai "gradi di libertà", che in precedenza richiedevano interi capitoli di tabelle anziché una singola pagina), lo standard Normale viene utilizzato per quasi tutti approssimazioni.


2
Risposta di qualità. +1
Demetri Pananos

10

La giustificazione per l'utilizzo della distribuzione t nell'intervallo di confidenza per una media si basa sul presupposto che i dati sottostanti seguono una distribuzione normale, che porta a una distribuzione chi-quadro quando si stima la deviazione standard, e quindi x¯μs/ntn1. Questo è un risultato esatto presupponendo che i dati siano esattamente normali, il che porta a intervalli di confidenza con una copertura esattamente del 95% quando si usat e una copertura inferiore al 95% se si usa z .

Nel caso di intervalli di Wald per le proporzioni, si ottiene solo la normalità asintotica per pp^pp^(1p^)/n, quando n è abbastanza grande, che dipende a p. La probabilità di copertura effettiva della procedura, poiché i conteggi di successi sottostanti sono discreti, è talvolta inferiore e talvolta superiore alla probabilità di copertura nominale del 95% a seconda dell'ignotop. Quindi, non esiste una giustificazione teorica per l'uso dit , e non vi è alcuna garanzia che dal punto di vista pratico l'uso di t solo per allargare gli intervalli contribuirebbe effettivamente a raggiungere una copertura nominale del 95%.

La probabilità di copertura può essere calcolata esattamente, anche se è abbastanza semplice simularla. L'esempio seguente mostra la probabilità di copertura simulata quando n = 35. Dimostra che la probabilità di copertura per l'uso dell'intervallo z è generalmente leggermente inferiore a .95, mentre la probabilità di copertura per l'intervallo t può essere generalmente più stretta vicino a .95 in media a seconda delle tue precedenti convinzioni sui valori plausibili di p .

enter image description here

enter image description here


3
+1 Queste sono eccellenti illustrazioni delle affermazioni che ho fatto (basate solo sull'ispezione di grafici di CDF, piuttosto che su dimostrazioni rigorose) sull'accuratezza relativa di Student t e EC normali.
whuber

6

Sia AdamO che Jsk danno un'ottima risposta.

Vorrei provare a ripetere i loro punti con un inglese semplice:

Quando la distribuzione sottostante è normale, sai che ci sono due parametri: media e varianza . La distribuzione T offre un modo per fare deduzione sulla media senza conoscere il valore esatto delle varianze. Invece di usare le variazioni effettive, solo campionare significa e campionare varianze sono necessari. Poiché si tratta di una distribuzione esatta, sai esattamente cosa stai ottenendo. In altre parole, la probabilità di copertura è corretta. L'uso di t riflette semplicemente il desiderio di aggirare la varianza della popolazione sconosciuta.

Quando facciamo deduzione in proporzione, tuttavia, la distribuzione sottostante è binomiale. Per ottenere la distribuzione esatta, è necessario guardare gli intervalli di confidenza di Clopper-Pearson. La formula fornita è la formula per l'intervallo di confidenza Wald. Usa la distribuzione normale per approssimare la distribuzione binomiale, poiché la distribuzione normale è la distribuzione limitante della distribuzione binomiale. In questo caso, poiché stai solo approssimando, il livello extra di precisione derivante dall'uso delle statistiche t diventa superfluo, tutto si riduce a prestazioni empiriche. Come suggerito nella risposta di BruceET, oggi Agresti-Coull è una formula semplice e standard per tale approssimazione.

Il mio professore Dr Longnecker del Texas A&M ha fatto una semplice simulazione per illustrare come funziona la diversa approssimazione rispetto all'IC basato su binomio.

Comparison of Various 95% C.I.’s for Proportion

Ulteriori informazioni sono disponibili nell'articolo Interval Stimation for a Binomial Proportion in Statistical Science , Vol. 16, pagg. 101-133, di L. Brown, T. Cai e A. DasGupta. Fondamentalmente, AC CI è raccomandato per n> = 40.

enter image description here


3

X1,X2,XnμσH0:μ=μ0Ha:μμ0Z=X¯μ0σ/n.H0ZNorm(0,1),H0|Z|1.96.

μμ0μ.X¯±1.96σ/n,±1.96

σS,T=X¯μ0S/n.TnSσ.

TT(ν=n1),n1σX¯±tS/n,±tT(n1).

n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

Se cerchiamo di invertire questo test per ottenere un IC al 95% per p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.


2

Nota l'uso di σ notazione che significa la deviazione standard della popolazione (nota).

La distribuzione T nasce come una risposta alla domanda: cosa succede quando non lo sai σ?

Lo ha notato, quando imbrogliamo stimando σdal campione come stimatore del plug-in, i tuoi EC sono mediamente troppo stretti. Ciò ha reso necessaria la distribuzione a T.

Al contrario, se si utilizza la distribuzione di T quando effettivamente fai sapereσ, i tuoi intervalli di confidenza saranno in media troppo ampi.

Inoltre, va notato che questa domanda rispecchia la risposta sollecitata da questa domanda .


2
Lo pseudonimo di Gosset pubblicato sotto era "Studente" non "Studente-T". Inoltre, in realtà non ha escogitato la distribuzione t standard stessa, né la statistica con cui ha avuto a che fare è in realtà la statistica t (ha fatto cose equivalenti, essenzialmente trattando una t in scala, ma quasi tutto il formalismo che abbiamo ora arriva dal lavoro di Fisher). Fisher ha scritto la statistica come la scriviamo noi. Fisher lo ha chiamato il t. Fisher derivò formalmente la distribuzione della statistica (mostrando che la combinazione di algebra, intuizione e argomentazione di simulazione di Gosset sulla sua versione della statistica era corretta)
Glen_b -Restate Monica

1
Vedi il documento di Gosset del 1908 qui: archive.org/details/biometrika619081909pear/page/n13 - c'è anche un bel pdf leggibile del documento rifatto in LaTeX qui . Si noti che questo è protetto da copyright poiché arriva più di qualche anno prima di Steamboat Willie .
Glen_b

@Glen_b Grazie! Ho cancellato gli aneddoti apparentemente sbagliati nella storia.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.