I residui di Pearson


16

Una domanda da principiante sul residuo di Pearson nel contesto del test chi-quadro per la bontà dell'adattamento:

Oltre alla statistica del test, la chisq.testfunzione di R riporta il residuo di Pearson:

(obs - exp) / sqrt(exp)

Capisco perché la differenza grezza tra i valori osservati e quelli attesi non sia così istruttiva, poiché un campione più piccolo comporterà una differenza minore. Tuttavia, vorrei sapere di più sull'effetto del denominatore: perché dividere per la radice del valore atteso? È un residuo 'standardizzato'?


6
Il denominatore viene utilizzato per tenere conto della varianza dei residui grezzi che rende quindi i residui di Pearson approssimativamente della varianza unitaria (esistono altri metodi per ottenere questo risultato). Si noti che esiste un componente stdresper i residui standardizzati.
chl

@chl Grazie per la tua rapida risposta. Tuttavia, non capisco il concetto di varianza in questo contesto. Conoscete qualche risorsa dove potrei saperne di più? Suppongo, quindi, che il residuo di un Pearson non sia "standardizzato", dato che chisq.testcalcola anche il stdrescomponente?
Iain Dillingham,

3
Il riferimento definitivo all'analisi dei dati categorici è probabilmente l'analisi dei dati categorici , di Alan Agresti. Se nessuno fornisce una risposta più dettagliata, proverò a convertire i miei commenti in una risposta corretta.
chl

Grazie per il link, @chl. Ho accesso al libro, quindi proverò a capirlo da solo.
Iain Dillingham,

Risposte:


10

Il modello statistico standard alla base dell'analisi delle tabelle di contingenza è quello di supporre che (incondizionatamente sul conteggio totale) i conteggi delle celle siano variabili casuali indipendenti di Poisson. Pertanto, se si dispone di una tabella di contingenza n×m , il modello statistico utilizzato come base per l'analisi richiede che ogni conteggio delle celle abbia una distribuzione incondizionata:

Xi,j ~ Pois(μi,j)

Dopo aver imposto un conteggio totale di celle per la tabella di contingenza o un conteggio di righe o colonne, le distribuzioni condizionali risultanti dei conteggi di celle diventano multinomiali. In ogni caso, per una distribuzione di Poisson abbiamo E(Xi,j)=V(Xi,j)=μi,j , quindi il conteggio delle cellule standardizzato è:

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

Quindi, quello che stai vedendo nella formula di cui ti stai chiedendo, è il conteggio cellulare standardizzato, supponendo che i conteggi cellulari abbiano una distribuzione (incondizionata) di Poisson.

Da qui è comune testare l'indipendenza della variabile di riga e colonna nei dati e in questo caso è possibile utilizzare una statistica di test che esamina la somma dei quadrati dei valori sopra (che equivale alla norma quadrata del vettore di valori standardizzati). Il test chi-quadrato fornisce un valore p per questo tipo di test basato su un'approssimazione di grandi campioni alla distribuzione nulla della statistica del test. Di solito viene applicato nei casi in cui nessuno dei conteggi di vendita è troppo piccolo.


0

Nel contesto della bontà di adattamento, è possibile fare riferimento a questo http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Se vuoi sapere come il denominatore è arrivato lì, dovrai vedere il chi-quadrato qui come una normale approssimazione al binomio, per cominciare, che poi può essere esteso ai multinomi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.