Perché l'introduzione di un effetto di pendenza casuale ha allargato il SE della pendenza?

Sto cercando di analizzare l'effetto dell'Anno sul registro variabile per un particolare gruppo di individui (ho 3 gruppi). Il modello più semplice:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16

Possiamo vedere che il Gruppo 1 sta diminuendo in modo significativo, i Gruppi 2 e 3 in aumento ma non in modo significativo.

Chiaramente l'individuo dovrebbe essere un effetto casuale, quindi presento un effetto di intercettazione casuale per ogni individuo:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

Ha avuto un effetto previsto: la SE delle pendenze (coefficienti Gruppo 1-3: Anno) è ora più bassa e anche la SE residua è più bassa.

Gli individui hanno anche una pendenza diversa, quindi ho anche introdotto l'effetto di pendenza casuale:

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

Ma ora, contrariamente alle aspettative, le SE delle pendenze (coefficienti Gruppo 1-3: Anno) sono ora molto più alte, anche più alte che senza alcun effetto casuale!

Com'è possibile? Mi aspetto che l'effetto casuale "mangerà" la variabilità inspiegabile e aumenterà la "sicurezza" della stima!

Tuttavia, la SE residua si comporta come previsto: è inferiore rispetto al modello di intercettazione casuale.

Ecco i dati, se necessario.

modificare

Ora ho realizzato fatti sorprendenti. Se eseguo la regressione lineare per ciascun individuo separatamente e quindi eseguo ANOVA sulle pendenze risultanti, ottengo esattamente lo stesso risultato del modello di pendenza casuale! Sai perché?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079

Ecco i dati, se necessario.

r mixed-model lme4-nlme random-effects-model

— Curioso
fonte

Se hai bisogno di un anno, hai bisogno di un effetto fisso anno: effetto fisso di interazione di gruppo. In generale, non è possibile includere un termine di interazione senza includere anche gli effetti principali. Pensi davvero che non ci siano componenti fissi per l'effetto dell'anno? E, in caso affermativo, come potrebbe esserci un anno fisso: interazione di gruppo?

— Giovanni,

E perché nessuna intercettazione fissa? Puoi avere sia, fisso che casuale.

— Giovanni,

@Giovanni, questo modello è completamente valido. Questo è solo un problema della codifica desiderata della variabile categoriale. In questo modo è l'intercetta Gruppo , ed è la pendenza all'interno del gruppo . Se vengono inclusi l'effetto principale di Anno e l'intercettazione, le stime sarebbero le differenze dell'intercetta del Gruppo e del Gruppo 1, e analogamente con le pendenze. Group

i

$i$

i

$i$ Group

i

$i$ :Year

i

$i$

i

$i$

— Aniko,

@John, questo è fuori tema per la mia domanda, tuttavia: credimi, va bene, ho fatto molti esperimenti con quello. Il mio primo modello lm è del tutto equivalente logInd ~ Year*Group, solo i coefficienti hanno una forma diversa, niente di più. Dipende dai tuoi gusti e dalla forma dei coefficienti che ti piacciono, niente di più. Non c'è esclusione di "Effetto principale dell'anno" nel mio primo modello mentre scrivi ... logInd ~ Year*Groupfa esattamente lo stesso, il Yearcoefficiente quindi non è l'effetto principale, ma il Group1: Year.

— Curioso il

OK, pulito, non aveva considerato sia il 0 intercetta e Gruppo di essere categorica.

— Giovanni

Penso che il problema sia con le tue aspettative :) Nota che quando hai aggiunto un'intercettazione casuale per ogni individuo, l'errore standard delle intercettazioni è aumentato. Poiché ogni individuo può avere la propria intercetta, la media del gruppo è meno certa. La stessa cosa è successa con la pendenza casuale: non si sta più stimando una pendenza comune (all'interno del gruppo), ma la media delle pendenze variabili.

EDIT: Perché un modello migliore non fornisce una stima più precisa?

Pensiamo al contrario: perché il modello iniziale sottostima l'errore standard? Presuppone l'indipendenza delle osservazioni che non sono indipendenti. Il secondo modello rilassa tale presupposto (in un modo che influenza le intercettazioni), e il terzo lo rilassa ulteriormente.

EDIT 2: relazione con molti modelli specifici del paziente

La tua osservazione è una proprietà nota (e se avessi solo due anni, il modello di effetti casuali sarebbe equivalente a un test t associato). Non credo di poter gestire una vera prova, ma forse scrivere i due modelli renderà più chiara la relazione. Ignoriamo la variabile di raggruppamento, poiché complicherebbe semplicemente la notazione. Userò lettere greche per effetti casuali e lettere latine per effetti fissi.

Il modello di effetti casuali è ( - soggetto, - replica all'interno del soggetto): dove e . $i$ $j$

Y_{i j} = a + α_{i} + (b + β_{i}) x_{i j} + ϵ_{i j},

$Y_{ij} = a + \alpha_i + (b+\beta_i)x_{ij} + \epsilon_{ij},$

(α_{i}, β_{i})^{'} \sim N (0, Σ)

$(\alpha_i,\beta_i)'\sim N(0,\Sigma)$

ϵ_{i j} \sim N (0, σ^{2})

$\epsilon_{ij}\sim N(0,\sigma^2)$

Quando si adattano modelli separati per ogni soggetto, quindi dove .

Y_{i j} = a_{i} + b_{i} x_{i j} + ϵ_{i j},

$Y_{ij} = a_i + b_i x_{ij}+ \epsilon_{ij},$

ϵ_{i j} \sim N (0, σ_{i}^{2})

$\epsilon_{ij}\sim N(0,\sigma_i^2)$

[Nota: il seguente è davvero solo il handwaving:]

Puoi vedere molte somiglianze tra questi due modelli con corrispondente a e a . La media di corrisponde a , poiché gli effetti casuali sono in media pari a 0. La correlazione non vincolata dell'intercetta casuale e dell'inclinazione porta al fatto che i modelli possono essere montati separatamente. Non sono sicuro di come il singolo presupposto combini con il specifico del soggetto , ma suppongo che raccolga la differenza. $a_i$ $a+\alpha_i$ $b_i$ $b+\beta_i$ $b_i$ $b$ $\sigma$ $\sigma_i$ $\alpha_i$

— Aniko
fonte

Grazie Aniko. Hai ragione, i miei calcoli lo confermano, ma vorrei vedere perché ... Sembra controintuitivo. Ho migliorato i modelli - introducendo effetti casuali ho descritto meglio la struttura degli errori. L'errore residuo lo conferma: è inferiore e inferiore. Quindi con questi modelli migliori e più precisi mi aspetterei una pendenza più precisa ... So che mi sbaglio da qualche parte, per favore aiutami a vederlo.

— Curioso il

Grazie Aniko, questo è un punto di vista interessante! Sono interessato solo alle piste (Gruppo *: Anno), non intercettare qui .. quindi il mio primo passo nell'introduzione dell'effetto casuale di itcept ha rilassato quell'assunzione di indipendenza e ha portato alla SE inferiore (di pendenza ..) e quindi al passaggio successivo probabilmente era troppo (??) e ha fatto il contrario (peggio ancora SE ..) .. forse devo pensarci, grazie.

— Curioso,

Ora sono anche stupito da un fatto molto interessante: vedi la mia modifica. Sapresti perché?

— Curioso il

Non credo che il presupposto dell'indipendenza sia stato troppo rilassato! Inizialmente era sbagliato.

— Aniko,

Tomas, un modello "preciso" non significa che le stime saranno più precise. Ad esempio, prendi qualsiasi modello privo di dati che ti piace, come quello che prevede che tutte le risposte siano zero. Questo modello è assolutamente certo nella sua stima di zero. È quindi il più preciso possibile - ma probabilmente anche il più sbagliato possibile. Dare un modello più ampio per adattarsi ai parametri, quindi di solito significa che quei parametri sono adattati con meno precisione, non di più. Un modello migliore, poiché può quantificare l'incertezza non rilevata da un modello peggiore, presenta spesso errori standard più grandi.

— whuber