Gestiamo il caso più semplice per provare a fornire la maggior intuizione. Sia un campione iid da una distribuzione discreta con esiti k . Sia π 1 , ... , π k le probabilità di ogni risultato particolare. Siamo interessati alla distribuzione (asintotica) della statistica chi-quadrata
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πk
Qui n π i è il numero atteso di conteggi del I ° risultato.
X2=∑i=1k(Si−nπi)2nπi.
nπii
Un euristico suggestivo
Definisci , in modo cheX2=∑iU 2 i =‖U‖ 2 2 doveU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
Poiché è B i n ( n , π i ) , quindi per il Teorema del limite centrale ,
T i = U iSiBin(n,πi)
quindi, abbiamo anche quello, U i d → N ( 0 , 1 - π i ) .
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
Ora, se la erano (asintoticamente) indipendente (che non lo sono), allora potremmo sostenere che
Σ i T 2 i era asintoticamente χ 2 k distribuito. Tuttavia, si noti che T k è una funzione deterministica di ( T 1 , ... , T k - 1 ) e quindi le variabili T i non possono essere indipendenti.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
Quindi, dobbiamo in qualche modo tenere conto della covarianza tra loro. Risulta che il modo "corretto" per farlo è di utilizzare la invece, e la covarianza tra i componenti di U cambia anche la distribuzione asintotica da quello che si potrebbe pensare era χ 2 k a ciò che è, in effetti, a χ 2 k - 1 .UiUχ2kχ2k−1
Di seguito alcuni dettagli.
Un trattamento più rigoroso
Non è difficile verificare che, in effetti,
peri≠j.Cov(Ui,Uj)=−πiπj−−−−√i≠j
Quindi, la covarianza di è
A = I - √U
dove √
A=I−π−−√π−−√T,
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
Now, by the Multivariate Central Limit Theorem, the vector U has
an asymptotic multivariate normal distribution with mean 0 and
covariance A.
So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of
X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.
But, A is symmetric and idempotent, so (a) it has orthogonal
eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c)
the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.
Thus, ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio
statistics. Indeed, it is a Rao score statistic and can be viewed as a
Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
- G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
- E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
- D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.