A che livello un test


15

BACKGROUND: saltare in sicurezza - è qui per riferimento e per legittimare la domanda.

L'apertura di questo documento recita:

"Il famoso test di contingenza chi-quadrato di Karl Pearson è derivato da un'altra statistica, chiamata statistica z, basata sulla distribuzione normale. Le versioni più semplici di χ2 possono essere dimostrate matematicamente identiche a test z equivalenti. I test producono lo stesso risultato in ogni circostanza. A tutti gli effetti "chi-quadrato" potrebbe essere chiamato "z-quadrato". I valori critici di χ2 per un grado di libertà sono il quadrato dei corrispondenti valori critici di z. "

Questo è stato affermato più volte nel CV ( qui , qui , qui e altri).

E infatti siamo in grado di dimostrare che χ1df2 è equivalente aX2conXN(0,1):

Diciamo che XN(0,1) e che Y=X2 e trovare la densità di Y usando il metodo cdf :

p(Yy)=p(X2y)=p(yxy). Il problema è che non possiamo integrare in stretta forma la densità della distribuzione normale. Ma possiamo esprimerlo:

FX(y)=FX(y)FX(y).
Prendendo il derivato:

fX(y)=FX(y)12y+FX(y)12y.

Poiché i valori della normale sono simmetrici:pdf

. Paragonando questo allapdfdel normale (ora laxnellapdfsaràfX(y)=FX(y)1ypdfxpdf da collegare ae - x 2y parte della normalepdf); e ricordando di includere1ex22pdf alla fine:1y

fX(y)=FX(y)1y=12πey21y=12πey2y121

Confronta con il pdf del chi quadrato:

fX(x)=12ν/2Γ(ν2)ex2xν21

Poiché , per1df, abbiamo derivato esattamente lapdfdel quadrato chi.Γ(1/2)=π1pdf

Inoltre, se chiamiamo la funzione prop.test()in R , invochiamo lo stesso test come se decidessimo .χ2chisq.test()

LA DOMANDA:

Quindi ottengo tutti questi punti, eppure non so ancora come si applicano all'implementazione effettiva di questi due test per due motivi:

  1. Un test z non è quadrato.

  2. Le statistiche dei test effettivi sono completamente diverse:

Il valore della statistica test per un χ2 è:

doveχ2=i=1n(OiEi)2Ei=Ni=1npi(Oi/Npipi)2

= statistica del test cumulativo di Pearson, che si avvicina asintoticamente a unadistribuzione χ 2 . O i = il numero di osservazioni di tipo i ; N = numero totale di osservazioni; E i = N p i = la frequenza (teorica) attesa di tipo i , asserita dall'ipotesi nulla che la frazione di tipo i nella popolazione sia p i ; n = il numero di celle nella tabella.χ2χ2OiiNEiNpiiipin

D'altra parte, la statistica del test per un test è:z

conp=x1Z=x1n1x2n2p(1p)(1/n1+1/n2) , dovex1ex2sono il numero di "successi", rispetto al numero di soggetti in ciascuno dei livelli delle variabili categoriali, ovveron1en2.p=x1+x2n1+n2x1x2n1n2

Questa formula sembra basarsi sulla distribuzione binomiale.

Queste due statistiche dei test sono chiaramente diverse e producono risultati diversi per le statistiche dei test effettivi, nonché per i valori p : 5.8481per e per il test z, dove 2.4183 2 = 5.84817 (grazie, @ mark999 ). Il valore p per il test χ 2 è , mentre per il test z è . La differenza spiegata da due code contro una coda: 0,01559 / 2 = 0,007795 (grazie @amoeba).χ22.41832.41832=5.84817χ20.015590.00770.01559/2=0.007795

Quindi a quale livello diciamo che sono la stessa cosa?


Ma questi sono due test identici. Z al quadrato è la statistica chi-quadro. Ti permette di avere una tabella di frequenza 2x2 in cui le colonne sono i due gruppi e le righe sono "successo" e "errore". Quindi le cosiddette frequenze attese del test del chi-quadro in una data colonna sono il profilo ponderato (per la N dei gruppi) di profilo medio (gruppo) moltiplicato per il N. di quel gruppo. Quindi, arriva che il chi-quadrato verifica la deviazione di ciascuno dei due profili di gruppo da questo profilo di gruppo medio, che equivale a testare la differenza dei profili dei gruppi l'uno dall'altro, il test z delle proporzioni.
ttnphns,

Nell'esempio sull'ultimo collegamento ipertestuale è quasi il quadrato della statistica del test z, ma non del tutto, ei valori p sono diversi. Inoltre, quando si guardano le formule per le statistiche restanti sopra, è davvero immediato che siano identiche? O anche l'uno il quadrato dell'altro? χ2
Antoni Parellada,

2
In chisq.test(), hai provato a usare correct=FALSE?
mark999,

1
Anzi, Antoni. Entrambi i test esistono con o senza Yates. Potrebbe essere che calcoli uno con l'altro ma senza di esso?
ttnphns,

1
Grazie! Avevi (prevedibilmente) ragione. Con la correzione Yates disattivata, l'una è solo il quadrato dell'altra. Ho modificato la domanda di conseguenza, anche se un po 'velocemente. Vorrei ancora dimostrare algebricamente che entrambe le statistiche dei test sono uguali (o l'una il quadrato dell'altra) e capire perché i valori p sono diversi.
Antoni Parellada,

Risposte:


12

Diamo una tabella di frequenza 2x2 in cui le colonne sono due gruppi di intervistati e le righe sono le due risposte "Sì" e "No". E abbiamo trasformato le frequenze nelle proporzioni all'interno del gruppo, cioè nei profili verticali :

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

Il solito (non corretto da Yates) di questa tabella, dopo aver sostituito le proporzioni anziché le frequenze nella sua formula, si presenta così:χ2

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2+n2(p2p)2pq.

p=n1p1+n2p2n1+n2(p1,q1)(p2,q2)

...=(p1p2)2(n12n2+n1n22)pqN2

Divide both numerator and denominator by the (n12n2+n1n22) and get

(p1p2)2pq(1/n1+1/n2)=Z2,

the squared z-statistic of the z-test of proportions for "Yes" response.

Thus, the 2x2 homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the group n) average vertical profile (i.e. the profile of the "average group") multiplied by that group's n. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.

This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.


(Showing the expansion in the first line above, By @Antoni's request):

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2qpq+n1(q1q)2ppq+n2(p2p)2qpq+n2(q2q)2ppq=n1(p1p)2(1p)+n1(1p11+p)2p+n2(p2p)2(1p)+n2(1p21+p)2ppq=n1(p1p)2(1p)+n1(pp1)2p+n2(p2p)2(1p)+n2(pp2)2ppq=[n1(p1p)2][(1p)+p]+[n2(p2p)2][(1p)+p]pq=n1(p1p)2+n2(p2p)2pq.


@ttnphs This is great! Any chance you could clarify the intermediate step in the first equation (χ2) formula - I don't see how the q's go away after the equal sign.
Antoni Parellada

@ttnphs When I expand it I get n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(q(p2+p(2p12q1+p12)+p(q2+q12)pq)+n2(q(p2+p(2p22q2)+p22)+p(q2+q22)pq)
Antoni Parellada

@ttnphs ... Or some reference so it's less work to type the latex... And I'll promptly and happily 'accept' the answer...
Antoni Parellada

@Antoni, expansion inserted.
ttnphns

@ttnphns Awesome!
Antoni Parellada
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.