Ho imparato dalle statistiche elementari che, con un modello lineare generale, affinché le inferenze siano valide, le osservazioni devono essere indipendenti. Quando si verifica il clustering, l'indipendenza potrebbe non essere più ritenuta determinante un'inferenza non valida a meno che ciò non sia giustificato. Un modo per tenere conto di tale clustering è utilizzare modelli misti. Vorrei trovare un set di dati di esempio, simulato o meno, che lo dimostra chiaramente. Ho provato a utilizzare uno dei set di dati di esempio sul sito UCLA per analizzare i dati del cluster
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
A meno che non mi manchi qualcosa, questi risultati sono abbastanza simili da non pensare che l'output da lm()non sia valido. Ho esaminato alcuni altri esempi (ad esempio 5.2 del Bristol University Centre for Multilevel Modeling ) e ho scoperto che anche gli errori standard non sono terribilmente diversi (non mi interessano gli effetti casuali stessi del modello misto, ma vale la pena notare che l'ICC dall'output del modello misto è 0,42).
Quindi, le mie domande sono 1) a quali condizioni gli errori standard saranno notevolmente diversi quando si verifica il clustering, e 2) qualcuno può fornire un esempio di tale set di dati (simulato o meno).