Come posso trovare la deviazione standard della deviazione standard del campione da una distribuzione normale?


11

Scusami se ho perso qualcosa di piuttosto ovvio.

Sono un fisico con quella che è essenzialmente una distribuzione (istogramma) centrata su un valore medio che si avvicina a una distribuzione normale. Il valore importante per me è la deviazione standard di questa variabile casuale gaussiana. Come farei per cercare di trovare l'errore sulla deviazione standard del campione? Ho la sensazione che abbia a che fare con l'errore su ogni bin dell'istogramma originale.


Un suggerimento è disponibile su stats.stackexchange.com/questions/26924 . In generale, l'errore di campionamento di una varianza può essere calcolato in termini dei primi quattro momenti della distribuzione e quindi l'errore di campionamento della SD può almeno essere stimato da quei momenti.
whuber

Risposte:


12

Sembra che tu stia chiedendo un calcolo della deviazione standard della deviazione standard del campione. Cioè, stai chiedendo , doveSD(s)=var(s)

s=1n1i=1n(XiX¯),

¯ XX1,...,XnN(μ,σ2) e è la media di esempio.X¯

Innanzitutto, sappiamo dalle proprietà di base della varianza che

vun'r(S)=E(S2)-E(S)2

Poiché la varianza del campione è imparziale, conosciamo . In Perché la deviazione standard del campione è uno stimatore distorto di ? , Viene calcolato , da cui possiamo dedurreσ E ( s )E(S2)=σ2σE(S)

E(S)2=2σ2n-1(Γ(n/2)Γ(n-12))2

perciò

SD(S)=E(S2)-E(S)2=σ1-2n-1(Γ(n/2)Γ(n-12))2

Buon punto. Ho ottenuto una stima della varianza di s ^ 2. Prendendo la radice quadrata si ottiene una stima della deviazione standard di s ^ 2. Ma hai risposto alla domanda reale che era quella di ottenere la deviazione standard di s. Suppongo che per ragioni pratiche anche tu sostituiresti σ con s per ottenere una stima usando la formula.
Michael R. Chernick,

Sì, che è di destra, è possibile sostituire con s e questa approssimazione si comporta bene anche per le dimensioni del campione modeste - ho fatto alcuni test con n = 20 . σSn=20
Macro

11

La quantità ha una distribuzione chi-quadrato con n - 1 gradi di libertà quando i campioni sono indipendenti e distribuiti con la stessa distribuzione normale Questa quantità può essere utilizzata per ottenere intervalli di confidenza per il varianza della normale e sua deviazione standard. Se hai i valori grezzi e non solo il valore centrale dei bin, puoi calcolare s 2 . X=(n-1)S2/σ2n-1S2

È noto che se ha una distribuzione chi-quadrato con n - 1 gradi di libertà, la sua varianza è 2 ( n - 1 ) . Sapendo questo e il fatto che V a r ( c X ) = c 2 V a r ( X ) si ottiene che s 2 ha una varianza uguale a 2 ( n - 1 ) σ 4Xn-12(n-1)Vun'r(cX)=c2Vun'r(X)S2 Sebbene σ 4 sia sconosciuto, puoi approssimarlo con s 4 e hai una vaga idea di quale sia la varianza di s 2 .

2(n-1)σ4(n-1)2=2σ4n-1.
σ4S4S2

Avevo intenzione di postare questo all'inizio, ma il problema come lo vedo qui è che è sconosciuto. Dato questo fatto, non so se è valido per approssimare s 4σ 4 se non sappiamo nemmeno la dimensione del campione. Ricordo che si può dimostrare che il quarto momento può avere seri problemi con gli outlier. σ2S4σ4
Néstor

è uno stimatore coerente di σ 4 (purchéesista σ 4 ), giusto @Nesp? Penso che questo sia generalmente ciò che si intende quando la gente dice "approssimativa" o "idea approssimativa". S4σ4σ4
Macro

2
Forse è la mancanza di sonno, ma non è come il ragionamento circolare?
Néstor

Fin dall'inizio abbiamo ipotizzato che i dati provenissero da una distribuzione normale, quindi non vi sono problemi anomali. Intendevo approssimativamente come suggerisce Macro. Concordo sul fatto che la dimensione del campione influisce sulla vicinanza di s ^ 4 a σ ^ 4. Ma la preoccupazione per gli outlier è fuori dalla Nesp. Se mi hai votato per questo, penso che sia molto ingiusto. Quello che ho presentato è stato il modo standard di stimare la deviazione standard per s ^ 2 quando i dati sono NORMALMENTE DISTRIBUITI.
Michael R. Chernick,

@Nesp, Michael ha fornito uno stimatore coerente della varianza della deviazione standard del campione da un campione normalmente distribuito - per campioni di grandi dimensioni funzionerà bene - simulalo e scoprilo. Non sono sicuro del motivo per cui pensi che questo sia un ragionamento circolare.
Macro

7

Esistono diversi modi per quantificare l'errore della deviazione standard nel caso normale. Presenterò la probabilità del profilo di che può essere utilizzata per approssimare gli intervalli di confidenza.σ

X=(X1,...,Xn)(μ,σ)

L(μ,σ)α1σnexp(-12σ2Σj=1n(Xj-μ)2)

(μ^,σ^)=(X¯,S)S=1nΣj=1n(Xj-X¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Rp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σI=(L,U)σ2I=(L2,U2)


Penso che volesse davvero solo la deviazione standard di s.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.