Supponiamo che io abbia tre popolazioni con quattro caratteristiche reciprocamente esclusive. Prendo campioni casuali da ogni popolazione e costruisco una tabella a campi incrociati o di frequenza per le caratteristiche che sto misurando. Ho ragione nel dire che:
Se volessi verificare se esiste una relazione tra le popolazioni e le caratteristiche (ad esempio se una popolazione ha una frequenza più alta di una delle caratteristiche), dovrei eseguire un test chi-quadrato e vedere se il risultato è significativo.
Se il test del chi-quadrato è significativo, mi mostra solo che esiste una relazione tra le popolazioni e le caratteristiche, ma non il modo in cui sono correlati.
Inoltre, non tutte le caratteristiche devono essere correlate alla popolazione. Ad esempio, se le diverse popolazioni hanno distribuzioni significativamente diverse delle caratteristiche A e B, ma non di C e D, il test del chi-quadrato può comunque tornare significativo.
Se volessi misurare se una specifica caratteristica è influenzata o meno dalla popolazione, allora posso eseguire un test per proporzioni uguali (ho visto questo chiamato un test z, o come
prop.test()
inR
) proprio su quella caratteristica.
In altre parole, è appropriato utilizzare il prop.test()
per determinare più accuratamente la natura di una relazione tra due insiemi di categorie quando il test chi-quadrato afferma che esiste una relazione significativa?