Come posso interpretare le "correlazioni degli effetti fissi" nel mio output glmer?


26

Ho il seguente output:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Tutte le mie variabili continue (indicate da un piccolo sprima del nome della variabile) sono standardizzate (punteggi z). seasonè una variabile categoriale con 2 livelli (inizio e fine), ed cropè una variabile categoriale con 3 livelli (mais, foraggio e soia).

Questa correlazione della matrice degli effetti fissi mi sta davvero confondendo, perché tutte le correlazioni hanno il segno opposto che fanno quando guardo le semplici regressioni di coppie di variabili. cioè, la correlazione della matrice degli effetti fissi suggerisce una forte correlazione positiva tra cropforagee sbare, quando in realtà esiste una correlazione NEGATIVA molto forte tra queste variabili - le colture foraggere tendevano ad avere molto meno terreno nudo rispetto alle colture di mais e soia. Le coppie di variabili continue hanno lo stesso problema, la correlazione della matrice degli effetti fissi dice che tutto è l'opposto di quello che dovrebbe essere ... Questo potrebbe essere dovuto solo alla complessità del modello (non essendo una semplice regressione)? Potrebbe avere qualcosa a che fare con il fatto che le variabili sono standardizzate?

Grazie.

Risposte:


27

L'output di "correlazione di effetti fissi" non ha il significato intuitivo che la maggior parte attribuisce ad esso. In particolare, non si tratta della correlazione delle variabili (come note OP). Si tratta infatti della correlazione attesa dei coefficienti di regressione. Sebbene ciò possa parlare di multicollinearità, non necessariamente. In questo caso ti sta dicendo che se hai ripetuto l'esperimento ed è accaduto che il coefficiente per si cropforagefosse ridotto, è probabile che lo sarebbe anche il coefficiente sbare.

In parte il suo libro "Analizzare i dati linguistici: un'introduzione pratica alla statistica usando R" che tratta di lme4 Baayen sopprime quella parte dell'output e lo dichiara utile solo in casi speciali. Ecco un messaggio listserv in cui Bates stesso descrive come interpretare quella parte dell'output:

È una correlazione approssimativa dello stimatore degli effetti fissi. (Includo la parola "approssimativo" perché dovrei ma in questo caso l'approssimazione è molto buona.) Non sono sicuro di come spiegarlo meglio di così. Supponiamo di aver prelevato un campione MCMC dai parametri nel modello, quindi ti aspetteresti che il campione dei parametri a effetti fissi visualizzi una struttura di correlazione come questa matrice.


3
Mi dispiace, questa sarà probabilmente una domanda sciocca, ma allora perché è importante considerare quella correlazione? Voglio dire, in quali situazioni dovrebbe essere considerato quel risultato?
mtao,

1
@Teresa Dipende da cosa lo stai usando. Se ti interessa l'interpretazione, allora ti sta dicendo quanto siano confuse due fonti di effetto. Se ti interessa la previsione, ti dice un po 'come potrebbero apparire altri modelli di previsione e ti dà qualche indizio su come il modello potrebbe cambiare se lasci cadere un predittore.
Russellpierce,

1
Quindi, immagina di avere due variabili in quell'output con una correlazione di 0,90, per esempio. In termini di interpretazione, suppongo che dovrei lasciarne cadere uno, perché sono "confusabili" e sembrano dire le stesse informazioni. Per quanto riguarda la previsione, se ne lascio cadere uno, altri modelli non dovrebbero cambiare molto, poiché sono correlati, ho ragione? O sto interpretando questo in modo errato?
mtao,

3
Sai, penso che stai facendo eco a ciò che ho detto correttamente; ma, riflettendo, non sono sicuro al 100% di aver ragione. Potresti essere servito al meglio aprendo una nuova domanda: ciò ti consentirà di avere più occhi sulla tua domanda e aumentare la probabilità che tu riceva una risposta corretta.
Russellpierce,

1
@russellpierce, grazie per questa risposta. Una domanda però, ho imparato che la multicollinearità si verifica quando i predittori sono correlati tra loro. Ma nella tua risposta dici che è la correlazione dei coefficienti di regressione (non dei predittori) che può parlare alla multicollinearità. Perché non solo correlare i predittori stessi invece dei coefficienti stimati?
locus

0

Se le tue correlazioni negative e positive sono uguali nel loro valore e solo il loro segno differisce, stai inserendo la variabile per errore. Ma non penso che questo sia il tuo caso poiché sembri già abbastanza avanzato nelle statistiche.

L'incoerenza che si sta verificando può essere ed è probabilmente causata dalla multicollinearità. Significa quando alcune variabili indipendenti condividono alcuni effetti sovrapposti, o in altre parole sono correlate da sole. ad esempio, la modellazione delle variabili "tasso di crescita" e "dimensione del tumore" può causare multicollinearità, poiché è possibile e probabile che tumori più grandi abbiano tassi di crescita più elevati (prima che vengano rilevati) di per sé. Questo può confondere il modello. E se il tuo modello ha poche variabili indipendenti che sono correlate tra loro, interpretare i risultati a volte può diventare piuttosto difficile. A volte porta a coefficienti totalmente strani, anche a tali estensioni che il segno di alcune delle correlazioni si inverte.

Dovresti prima rilevare le fonti della multicollinearità e gestirle, quindi rieseguire l'analisi.


1
-1; ingannevole. OP non ha inserito le sue variabili in modo errato e la multicollinearità potrebbe non essere un problema. Una correlazione tra gli effetti fissi grezzi potrebbe parlare a questo punto, ma il paradosso di Simpson potrebbe consentire a quell'approccio di condurti nella direzione sbagliata.
Russellpierce,

1
Perché "fuorviante"? Quale parte era fuorviante? Ho parlato molto chiaramente ed evitato di dedurre conclusioni chiare. Quello che ho detto è davvero uno dei segni della multicollinearità e ci dice che dovremmo controllare anche i VIF. Ma non capisco come lo sai o sei sicuro che "OP non ha inserito le sue variabili in modo errato e la multicollinearità potrebbe non essere un problema."?
Vic,

1
Inoltre non hai nemmeno letto completamente il mio post (e lo hai declassato e lo definisci fuorviante). Se l'avessi fatto, avresti visto che avevo suggerito che l'OP avrebbe dovuto controllare i VIF (come indicatori ufficiali per multiC) per assicurarsi che quelle alte correlazioni puntassero davvero a MC o no? ma comunque, sono aperto all'apprendimento purché privo di arroganza e attacchi personali.
Vic,

1
@Vic: non ho visto i tuoi commenti fino ad ora. Non intendevo che tu vedessi la mia risposta come un attacco personale. Ero dell'opinione che fosse fuorviante e ho fornito quella che credo sia la risposta corretta sopra. Ho letto il tuo post per intero al momento. Non so se ho scavato nei commenti o meno. Sto al mio voto negativo.
Russellpierce,

1
... ma ammetto di potermi sbagliare in quel giudizio. Tuttavia, mi è sembrato meglio spiegare il motivo per cui ho effettuato il downvoting piuttosto che semplicemente il downvote.
Russellpierce,

0

Può essere utile mostrare che tali correlazioni tra effetti fissi sono ottenute convertendo il "vcov" del modello in una matrice di correlazione. Se fitè il tuo modello lme4 montato, allora

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

e le correlazioni tra effetti fissi sono le voci fuori diagonale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.