Come ha fatto Karl Pearson a elaborare la statistica chi-quadrata?

Come ha fatto Pearson a presentare le seguenti statistiche chi quadrato di Pearson nel 1900?

K = \sum \frac{(O_{i j} - E_{i j})^{2}}{E_{i j}}

$K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}}$ che

K \sim χ^{2}

$K \sim \chi^2$

Aveva in mente il chi-quadro e ha ideato la metrica $K$ (approccio dal basso verso l'alto) o ha ideato la statistica e in seguito ha dimostrato che segue la distribuzione del chi-quadrato (dall'alto in basso)?

Voglio sapere perché ha scelto quella forma specifica e non altre come $\sum(O_{ij} -E_{ij})^2$ o $\sum|O_{ij} -E_{ij}|$ e anche perché ha diviso il quadrato con il denominatore.

chi-squared descriptive-statistics history

— Alby
fonte

Potresti trovare questo interessante: perché quadrare la differenza invece di prendere il valore assoluto nella deviazione standard?

— gung - Ripristina Monica

Naturalmente, è possibile avere un numero qualsiasi di statistiche che è possibile utilizzare. Le tue alternative sono perfettamente a posto, anche se dovresti elaborare le distribuzioni di campionamento per loro, che differirebbero in base al numero di celle. Una cosa che è conveniente in questo modulo è che ha alcune relazioni con altre distribuzioni, ad esempio è la distribuzione della somma di k variate casuali normali standard al quadrato.

— gung - Ripristina Monica

L'articolo di Pearson del 1900 non è protetto da copyright, quindi possiamo leggerlo online .

Dovresti iniziare osservando che questo documento riguarda la bontà del test di idoneità, non il test di indipendenza o omogeneità.

Procede lavorando con la normale multivariata e il chi-quadrato sorge come una somma di variate normali standardizzate al quadrato.

Dalla discussione di p160-161 si vede chiaramente che sta discutendo l'applicazione del test su dati distribuiti multinomiali (non credo che usi quel termine ovunque). Apparentemente capisce la normalità multivariata approssimativa del multinomiale (certamente sa che i margini sono approssimativamente normali - è un risultato molto vecchio - e conosce i mezzi, le varianze e le covarianze, dal momento che sono indicati nel documento); la mia ipotesi è che la maggior parte di quella roba sia già vecchio cappello nel 1900. (Notare che la stessa distribuzione chi-quadrata risale al lavoro di Helmert a metà degli anni 1870).

Quindi dal fondo di p163 deriva una statistica chi-quadro come "una misura della bontà di adattamento" (la statistica stessa appare nell'esponente dell'approssimazione normale multivariata).

Si passa poi a discutere come valutare il valore di p *, e poi dà correttamente l'area di coda superiore di una oltre 43.87 come 0.000016. [Dovresti tenere a mente, tuttavia, che non ha capito correttamente come regolare i gradi di libertà per la stima dei parametri in quella fase, quindi alcuni degli esempi nei suoi articoli usano un df troppo alto] $\chi^2_{12}$

* (si noti che non esistono paradigmi di test né di Fisherian né di Neyman-Pearson, tuttavia lo vediamo chiaramente applicare già il concetto di un valore p).

Noterai che non scrive esplicitamente termini come . Scrive invece , ecc. Per i conteggi attesi e per le quantità osservate usa e così via. Definisce quindi (metà inferiore p160) e calcola per ogni cella (vedere l'eq. (Xv) p163 e l'ultima colonna della tabella nella parte inferiore di p167) ... quantità equivalenti, ma in notazione diversa. $(O_i-E_i)^2/E_i$ $m_1$ $m_2$ $m'_1$ $e = m-m'$ $e^2/m$

Gran parte dell'attuale modo di comprendere il test chi-quadro non è ancora in atto, ma d'altra parte, un bel po 'è già lì (almeno se sai cosa cercare). Negli anni '20 (e oltre) sono successe molte cose che hanno cambiato il modo in cui guardiamo queste cose.

Per quanto riguarda il motivo per cui dividiamo per nel caso multinomiale, succede che anche se la varianza dei singoli componenti in un multinomiale è inferiore a , quando teniamo conto delle covarianze, equivale a dividere semplicemente per , facendo per una bella semplificazione. $E_i$ $E_i$ $E_i$

Aggiunto in modifica:

L'articolo del 1983 di Plackett fornisce una buona parte del contesto storico e una sorta di guida al documento. Consiglio vivamente di dare un'occhiata a questo. Sembra che sia gratuito online tramite JStor (se accedi), quindi non dovresti nemmeno aver bisogno di accedere tramite un'istituzione per leggerlo.

Plackett, RL (1983),
"Karl Pearson e il Chi-Squared Test",
International Statistical Review ,
vol. 51, n. 1 (aprile), pagg. 59-72

— Glen_b -Restate Monica
fonte

Ho appena riletto questo post e ogni volta che lo faccio ho una visione aggiuntiva. @Glen_b Voglio ringraziarti per la tua superba risposta, che avrei dovuto fare prima. Se potessi porre ulteriori domande, nella tua spiegazione su come la divisione di E si adatta alla covarianza, puoi approfondire questo aspetto o indicarmi la risorsa che discute di questo punto? Riesco a capire intuitivamente perché sia necessario "normalizzare", ma voglio sostenere la mia intuizione con la prova matematica.

— Alby,

E_{i}

$E_i$

X_{i}

$X_i$

C o v (X_{i}, X_{j}) = E (X_{i} X_{j}) - E (X_{i}) E (X_{j}) = - E (X_{i}) E (X_{j})

$Cov(X_i,X_j)=E(X_iX_j)-E(X_i)E(X_j)=-E(X_i)E(X_j)$

X_{i}, X_{j}

$X_i,X_j$

> 0

$>0$

Cov (O_{i}, O_{j})

$\text{Cov}(O_i,O_j)$

Grazie per il link @Glen_b. Dopo aver letto il post, ora è molto più chiaro! Pensavo ingenuamente che il denominatore fosse lì per adattarsi alle differenze iniziali per ogni cella, quindi il termine "normalizzazione", ma leggendo il tuo post mi sono reso conto che ero completamente fuori dal comune.

— Alby,

Sfortunatamente, la parola "normalizzare" ha almeno tre diversi sensi rilevanti nelle statistiche. Non ornato, normalmente lo userei solo per significare "standardizzare per dire 0 e deviazione standard 1", ma altre persone lo usano per significare "normalizzare" nel senso di normalizzare un vettore secondo una norma, o addirittura per trasformarsi in normalità approssimativa. Dal momento che è un tale bugbear qui, dovrei sapere ormai per evitarlo.

— Glen_b -Restate Monica