C'è molto sulla collinearità rispetto ai predittori continui, ma non così tanto che posso trovare su predittori categorici. Ho dati di questo tipo illustrati di seguito.
Il primo fattore è una variabile genetica (conta degli alleli), il secondo fattore è una categoria di malattia. Chiaramente i geni precedono la malattia e sono un fattore nel mostrare i sintomi che portano a una diagnosi. Tuttavia, un'analisi regolare che utilizza somme di quadrati di tipo II o III, come sarebbe comunemente fatto in psicologia con SPSS, manca l'effetto. Una somma di tipo I di analisi dei quadrati lo raccoglie quando viene inserito l'ordine appropriato perché dipende dall'ordine. Inoltre, è probabile che ci siano componenti extra nel processo della malattia che non sono correlati al gene che non sono ben identificati con il tipo II o III, vedi anova (lm1) sotto vs lm2 o Anova.
Dati di esempio:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- Lm1 con SS di tipo I per me sembra il modo appropriato per analizzare i dati data la teoria di base. La mia ipotesi è corretta?
- Sono abituato a manipolare esplicitamente disegni ortogonali, in cui questi problemi di solito non si presentano. È difficile convincere i revisori che questo è il processo migliore (supponendo che il punto 1 sia corretto) nel contesto di un campo centrico SPSS?
- E cosa segnalare nella sezione delle statistiche? Qualche analisi aggiuntiva o commenti che dovrebbero entrare?