BACKGROUND: saltare in sicurezza - è qui per riferimento e per legittimare la domanda.
L'apertura di questo documento recita:
"Il famoso test di contingenza chi-quadrato di Karl Pearson è derivato da un'altra statistica, chiamata statistica z, basata sulla distribuzione normale. Le versioni più semplici di possono essere dimostrate matematicamente identiche a test z equivalenti. I test producono lo stesso risultato in ogni circostanza. A tutti gli effetti "chi-quadrato" potrebbe essere chiamato "z-quadrato". I valori critici di per un grado di libertà sono il quadrato dei corrispondenti valori critici di z. "
Questo è stato affermato più volte nel CV ( qui , qui , qui e altri).
E infatti siamo in grado di dimostrare che è equivalente acon:
Diciamo che e che e trovare la densità di usando il metodo :
. Il problema è che non possiamo integrare in stretta forma la densità della distribuzione normale. Ma possiamo esprimerlo:
Poiché i valori della normale sono simmetrici:
. Paragonando questo allapdfdel normale (ora laxnellapdfsarà√ da collegare ae - x 2 parte della normalepdf); e ricordando di includere1 alla fine:
Confronta con il pdf del chi quadrato:
Poiché , per1df, abbiamo derivato esattamente lapdfdel quadrato chi.
Inoltre, se chiamiamo la funzione prop.test()
in R , invochiamo lo stesso test come se decidessimo .chisq.test()
LA DOMANDA:
Quindi ottengo tutti questi punti, eppure non so ancora come si applicano all'implementazione effettiva di questi due test per due motivi:
Un test z non è quadrato.
Le statistiche dei test effettivi sono completamente diverse:
Il valore della statistica test per un è:
dove
= statistica del test cumulativo di Pearson, che si avvicina asintoticamente a unadistribuzione χ 2 . O i = il numero di osservazioni di tipo i ; N = numero totale di osservazioni; E i = N p i = la frequenza (teorica) attesa di tipo i , asserita dall'ipotesi nulla che la frazione di tipo i nella popolazione sia p i ; n = il numero di celle nella tabella.
D'altra parte, la statistica del test per un test è:
conp=x1 , dovex1ex2sono il numero di "successi", rispetto al numero di soggetti in ciascuno dei livelli delle variabili categoriali, ovveron1en2.
Questa formula sembra basarsi sulla distribuzione binomiale.
Queste due statistiche dei test sono chiaramente diverse e producono risultati diversi per le statistiche dei test effettivi, nonché per i valori p : 5.8481
per e per il test z, dove 2.4183 2 = 5.84817 (grazie, @ mark999 ). Il valore p per il test χ 2 è , mentre per il test z è . La differenza spiegata da due code contro una coda: 0,01559 / 2 = 0,007795 (grazie @amoeba).2.4183
0.01559
0.0077
Quindi a quale livello diciamo che sono la stessa cosa?
chisq.test()
, hai provato a usare correct=FALSE
?