L'articolo di Pearson del 1900 non è protetto da copyright, quindi possiamo leggerlo online .
Dovresti iniziare osservando che questo documento riguarda la bontà del test di idoneità, non il test di indipendenza o omogeneità.
Procede lavorando con la normale multivariata e il chi-quadrato sorge come una somma di variate normali standardizzate al quadrato.
Dalla discussione di p160-161 si vede chiaramente che sta discutendo l'applicazione del test su dati distribuiti multinomiali (non credo che usi quel termine ovunque). Apparentemente capisce la normalità multivariata approssimativa del multinomiale (certamente sa che i margini sono approssimativamente normali - è un risultato molto vecchio - e conosce i mezzi, le varianze e le covarianze, dal momento che sono indicati nel documento); la mia ipotesi è che la maggior parte di quella roba sia già vecchio cappello nel 1900. (Notare che la stessa distribuzione chi-quadrata risale al lavoro di Helmert a metà degli anni 1870).
Quindi dal fondo di p163 deriva una statistica chi-quadro come "una misura della bontà di adattamento" (la statistica stessa appare nell'esponente dell'approssimazione normale multivariata).
Si passa poi a discutere come valutare il valore di p *, e poi dà correttamente l'area di coda superiore di una oltre 43.87 come 0.000016. [Dovresti tenere a mente, tuttavia, che non ha capito correttamente come regolare i gradi di libertà per la stima dei parametri in quella fase, quindi alcuni degli esempi nei suoi articoli usano un df troppo alto]χ212
* (si noti che non esistono paradigmi di test né di Fisherian né di Neyman-Pearson, tuttavia lo vediamo chiaramente applicare già il concetto di un valore p).
Noterai che non scrive esplicitamente termini come . Scrive invece m 1 , m 2 ecc. Per i conteggi attesi e per le quantità osservate usa m ′ 1 e così via. Definisce quindi e = m - m ′ (metà inferiore p160) e calcola e 2 / m per ogni cella (vedere l'eq. (Xv) p163 e l'ultima colonna della tabella nella parte inferiore di p167) ... quantità equivalenti, ma in notazione diversa.(Oi−Ei)2/Eim1m2m′1e=m−m′e2/m
Gran parte dell'attuale modo di comprendere il test chi-quadro non è ancora in atto, ma d'altra parte, un bel po 'è già lì (almeno se sai cosa cercare). Negli anni '20 (e oltre) sono successe molte cose che hanno cambiato il modo in cui guardiamo queste cose.
Per quanto riguarda il motivo per cui dividiamo per nel caso multinomiale, succede che anche se la varianza dei singoli componenti in un multinomiale è inferiore a E i , quando teniamo conto delle covarianze, equivale a dividere semplicemente per E i , facendo per una bella semplificazione.EiEiEi
Aggiunto in modifica:
L'articolo del 1983 di Plackett fornisce una buona parte del contesto storico e una sorta di guida al documento. Consiglio vivamente di dare un'occhiata a questo. Sembra che sia gratuito online tramite JStor (se accedi), quindi non dovresti nemmeno aver bisogno di accedere tramite un'istituzione per leggerlo.
Plackett, RL (1983),
"Karl Pearson e il Chi-Squared Test",
International Statistical Review ,
vol. 51, n. 1 (aprile), pagg. 59-72