Risposta rapida
Il motivo è perché, supponendo che i dati siano iid e e che definiscano
ˉ XXi∼N(μ,σ2)
quando si formano intervalli di confidenza, la distribuzione campionaria associata alla varianza del campione (S2, ricordate, una variabile casuale!) È una distribuzione chi-quadro (S2(N-1)/σ2∼χ2n-1), così come la distribuzione campionaria associata alla media campionaria è una distribuzione normale standard ((ˉX-μ)√
X¯S2==∑NXiN∑N(X¯−Xi)2N−1
S2S2(N−1)/σ2∼χ2n−1) quando conosci la varianza e con uno studente t quando non lo conosci (
( ˉ X -μ) √(X¯−μ)n−−√/σ∼Z(0,1) ).
(X¯−μ)n−−√/S∼Tn−1
Risposta lunga
Prima di tutto, proveremo che segue una distribuzione chi-quadro con N - 1 gradi di libertà. Successivamente, vedremo come questa dimostrazione sia utile quando si ricavano gli intervalli di confidenza per la varianza e come appare la distribuzione chi-quadro (e perché è così utile!). Cominciamo.S2(N−1)/σ2N−1
La prova
Per questo, forse devi abituarti alla distribuzione chi-quadro in questo articolo di Wikipedia . Questa distribuzione ha solo un parametro: i gradi di libertà, , e sembra avere una Moment Generating Function (MGF) data da:
m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 .
Se possiamo mostrare che la distribuzione di S 2 ( N - 1 ) / σ 2 ha una funzione generatrice di momenti come questa, ma con ν =ν
mχ2ν(t)=(1−2t)−ν/2.
S2(N−1)/σ2 , quindi abbiamo dimostrato che
S 2 ( N - 1 ) / σ 2 segue una distribuzione chi-quadro con
N - 1 gradi di libertà. Per dimostrarlo, nota due fatti:
ν=N−1S2(N- 1 ) /σ2N- 1
Se definiamo,
doveZi∼N(0,1), vale a dire variabili casuali normali standard, la funzione generatrice del momento diYè data da
m Y (t)
Y= ∑ ( Xio- X¯)2σ2= ∑ Z2io,
Zio∼ N( 0 , 1 )Y
Il MGF diZ2è dato da
m Z 2 ( t )mY( t )===E [ et Y]E [ et Z21] × E [ et Z22] × . . . E [ et Z2N]mZ2io( t ) × mZ22( t ) × . . . mZ2N( t ) .
Z2
dove ho usato il PDF dello standard normale,f(z)=e- z 2 / 2/√mZ2( t )==∫∞- ∞f( z) exp( t z2) dz( 1 - 2 t )- 1 / 2,
e, quindi,
mY(t)=(1-2t) - N / 2 , il
cheimplica cheYsegue una distribuzione chi-quadro conNgradi di libertà.f(z)=e−z2/2/2π−−√mY(t)=(1−2t)−N/2,
YN
Se e Y 2 sono indipendenti e ciascuno si distribuisce come distribuzione chi-quadro ma con ν 1 e ν 2 gradi di libertà, allora W = Y 1 + Y 2 si distribuisce con una distribuzione chi-quadrato con ν 1 + ν 2 gradi di libertà (questo deriva dal prendere l'MGF di W ; fallo!).Y1Y2ν1ν2W=Y1+Y2ν1+ν2W
Con i fatti di cui sopra, nota che se moltiplichi la varianza del campione per , ottieni (dopo un po 'di algebra),
( N - 1 ) S 2 = - n ( ˉ X - μ ) + ∑ ( X i - μ ) 2 ,
e quindi dividendo per σ 2 ,
( N - 1 ) S 2N−1
(N−1)S2=−n(X¯−μ)+∑(Xi−μ)2,
σ2
Si noti che il secondo termine nella parte sinistra di questa somma si distribuisce come distribuzione chi-quadro con 1 grado di libertà e la somma della parte destra si distribuisce come chi-quadrato con
Ngradi di libertà.
Pertanto,S2(N-1)/σ2 sidistribuisce come un chi-quadrato conN-1gradi di libertà.
(N−1)S2σ2+(X¯−μ)2σ2/N=∑(Xi−μ)2σ2.
NS2(N−1)/σ2N−1
Calcolo dell'intervallo di confidenza per la varianza.
Quando cerchi un intervallo di confidenza per la varianza, vuoi conoscere i limiti e L 2 in
P ( L 1 ≤ σ 2 ≤ L 2 ) = 1 - α .
Giochiamo con la disuguaglianza all'interno della parentesi. Innanzitutto, dividi per S 2 ( N - 1 ) ,
L 1L1L2
P(L1≤σ2≤L2)=1−α.
S2(N−1)
E poi ricorda due cose: (1) la statistica
S2(N-1)/σ2ha una distribuzione chi-quadrato con
N-1gradi di libertà e (2) le varianze sono sempre più grandi di zero, il che implica che tu può invertire le disuguaglianze, perché
L 1L1S2(N−1)≤σ2S2(N−1)≤L2S2(N−1).
S2(N−1)/σ2N−1
quindi, la probabilità che stiamo cercando è:
P(S2(N-1)L1S2(N−1)≤σ2S2(N−1)σ2S2(N−1)≤L2S2(N−1)⇒⇒S2(N−1)σ2≤S2(N−1)L1,S2(N−1)L2≤S2(N−1)σ2,
P(S2(N−1)L2≤S2(N−1)σ2≤S2(N−1)L1)=1−α.
S2(N−1)/σ2∼χ2(N−1)∫N−1S2(N−1)L2pχ2(x)dx∫S2(N−1)L1N−1pχ2(x)dx==(1−α)/2 ,(1−α)/2
N−1N−1N−1∫S2(N−1)L20pχ2(x)dx=α/2,∫∞S2(N−1)L1pχ2(x)dx=α/2.
Calling
χ2α / 2= S2(N- 1 )L2 e
χ21 - α / 2= S2(N- 1 )L1, dove i valori
χ2α / 2 e
χ21 - α / 2 può essere trovato nelle tabelle chi-square (principalmente nei computer!) e risolvendo per
L1 e
L2,
L1L2==S2(N- 1 )χ21 - α / 2,S2(N- 1 )χ2α / 2.
Quindi, il tuo intervallo di confidenza per la varianza è
C.I. = ( S2(N- 1 )χ21 - α / 2, S2(N- 1 )χ2α / 2) .