Perché il test chi-quadrato utilizza il conteggio atteso come varianza?


18

Nei test , qual è la base per usare la radice quadrata dei conteggi previsti come deviazioni standard (cioè i conteggi previsti come varianze) di ciascuna delle distribuzioni normali? L'unica cosa che ho potuto trovare discutendo di questo è http://www.physics.csbsju.edu/stats/chi-square.html , e menziona solo le distribuzioni di Poisson.χ2

Come semplice illustrazione della mia confusione, cosa accadrebbe se stessimo testando se due processi sono significativamente diversi, uno che genera 500 As e 500 Bs con una varianza molto piccola, e l'altro che genera 550 As e 450 Bs con una varianza molto piccola (generando raramente 551 As e 449 Bs)? La varianza qui non è chiaramente semplicemente il valore atteso?

(Non sono uno statistico, quindi cerco davvero una risposta accessibile ai non specialisti.)


Ciò ha probabilmente a che fare con il fatto che la varianza di una variabile casuale χK2 è 2K e anche con il fatto che la statistica deve essere moltiplicata per 2 per avere la distribuzione corretta (come nel test del rapporto di verosimiglianza). Forse qualcuno lo sa in modo più formale.
Macro

Risposte:


16

Il modulo generale per molte statistiche di test è

observedexpectedstandarderror

Nel caso di una variabile normale, l'errore standard si basa sulla varianza della popolazione nota (z-stats) o sulla stima dal campione (t-stats). Con il binomio l'errore standard si basa sulla proporzione (proporzione ipotizzata per i test).

In una tabella di contingenza si può pensare che il conteggio in ciascuna cella provenga da una distribuzione di Poisson con una media uguale al valore atteso (sotto il valore null). La varianza per la distribuzione di Poisson è uguale alla media, quindi utilizziamo anche il valore atteso per il calcolo dell'errore standard. Ho visto una statistica che utilizza invece l'osservato, ma ha una giustificazione meno teorica e non converge altrettanto alla distribuzione .χ2


1
Mi sto bloccando sulla connessione con il Poisson / capire perché ogni cellula può essere considerata come proveniente da un Poisson. Conosco la media / varianza di Poissons e so che rappresentano il numero di eventi a cui viene assegnato un tasso. So anche che le distribuzioni chi-quadrate rappresentano la somma dei quadrati delle normali standard (varianza 1). Sto solo cercando di avvolgere la mia testa attorno alla giustificazione del riutilizzo del valore atteso come presupposto della "diffusione" di ciascuna delle normali. È solo per rendere tutto conforme alla distribuzione chi-quadro / per "standardizzare" le normali?
Yang,

3
Ci sono un paio di problemi, la distribuzione di Poisson è comune per i conteggi quando le cose sono abbastanza indipendenti. Invece di pensare alla tabella come se avesse un totale fisso e stai distribuendo i valori tra le celle della tabella, pensa a una sola cella della tabella e stai aspettando un periodo di tempo fisso per vedere quante risposte cadono in quella cella , questo si adatta all'idea generale del Poisson. Per mezzi di grandi dimensioni è possibile approssimare un Poisson con una distribuzione normale, quindi la statistica del test ha senso come un'approssimazione normale al Poisson, quindi convertire in . χ2
Greg Snow,

1
(+1) Supponiamo che i conteggi delle cellule fossero variabili casuali indipendenti di Poisson con media n π i . Quindi, certamente, k i = 1 ( X i - n π i ) 2Xi,,Xknπi nella distribuzione. Ma il problema è chenè unparametroe non i conteggi effettivamente osservati. I conteggi totali osservati sonoN= k i = 1 XiPoi(n). SebbeneN/n1quasi sicuramente da parte del SLLN, è necessario fare ancora un po 'di lavoro per trasformare l'euristica in qualcosa di fattibile. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
cardinale il

Come semplice illustrazione della mia confusione, cosa accadrebbe se stessimo testando se due processi sono significativamente diversi, uno che genera 500 As e 500 Bs con una varianza molto piccola, e l'altro che genera 550 As e 450 Bs con una varianza molto piccola (generando raramente 551 As e 449 Bs)? La varianza qui non è chiaramente semplicemente il valore atteso?
Yang,

1
@Yang: Sembra che i tuoi dati --- che non hai descritto --- non siano conformi al modello alla base dell'uso della statistica chi-quadro. Il modello standard è quello del campionamento multinomiale . A rigor di termini, nemmeno il campionamento di Poisson (incondizionato) è coperto, ed è ciò che suppone la risposta di Greg. Faccio un riferimento (forse ottuso) a questo nel mio commento precedente.
cardinale il

17

Gestiamo il caso più semplice per provare a fornire la maggior intuizione. Sia un campione iid da una distribuzione discreta con esiti k . Sia π 1 , ... , π k le probabilità di ogni risultato particolare. Siamo interessati alla distribuzione (asintotica) della statistica chi-quadrata X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πk Qui n π i è il numero atteso di conteggi del I ° risultato.

X2=i=1k(Sinπi)2nπi.
nπii

Un euristico suggestivo

Definisci , in modo cheX2=iU 2 i =U 2 2 doveU=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Poiché è B i n ( n , π i ) , quindi per il Teorema del limite centrale , T i = U iSiBin(n,πi) quindi, abbiamo anche quello, U i d N ( 0 , 1 - π i ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

Ora, se la erano (asintoticamente) indipendente (che non lo sono), allora potremmo sostenere che Σ i T 2 i era asintoticamente χ 2 k distribuito. Tuttavia, si noti che T k è una funzione deterministica di ( T 1 , ... , T k - 1 ) e quindi le variabili T i non possono essere indipendenti.TiiTi2χk2Tk(T1,,Tk1)Ti

Quindi, dobbiamo in qualche modo tenere conto della covarianza tra loro. Risulta che il modo "corretto" per farlo è di utilizzare la invece, e la covarianza tra i componenti di U cambia anche la distribuzione asintotica da quello che si potrebbe pensare era χ 2 k a ciò che è, in effetti, a χ 2 k - 1 .UiUχk2χk12

Di seguito alcuni dettagli.

Un trattamento più rigoroso

Non è difficile verificare che, in effetti, perij.Cov(Ui,Uj)=πiπjij

Quindi, la covarianza di è A = I - U dove

A=IππT,
π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal

I don't know if you'll find the proof above in any text. I haven't seen the use of the full (degenerate) covariance matrix and its properties elsewhere. The usual treatment looks at the (nondegenerate) distribution of the first k1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal

Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.