Attualmente sto eseguendo alcuni modelli lineari ad effetto misto.
Sto usando il pacchetto "lme4" in R.
I miei modelli prendono la forma:
model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect))
Prima di eseguire i miei modelli, ho verificato la possibile multicollinearità tra predittori.
L'ho fatto per:
Crea un frame di dati dei predittori
dummy_df <- data.frame(predictor1, predictor2)
Utilizzare la funzione "cor" per calcolare la correlazione di Pearson tra predittori.
correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2)
Se "correl_dummy_df" era maggiore di 0,80, allora ho deciso che predictor1 e predictor2 erano troppo altamente correlati e non erano inclusi nei miei modelli.
Nel fare alcune letture, sembrerebbero modi più oggettivi per verificare la multicollinearità.
Qualcuno ha qualche consiglio al riguardo?
Il "Variance Inflation Factor (VIF)" sembra un metodo valido.
VIF può essere calcolato utilizzando la funzione "corvif" nel pacchetto DAE (non cran). Il pacchetto è disponibile all'indirizzo http://www.highstat.com/book2.htm . Il pacchetto supporta il seguente libro:
Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA & Smith, GM 2009. Modelli di effetti misti ed estensioni in ecologia con R, 1a edizione. Springer, New York.
Sembra che una regola empirica generale sia che se VIF è> 5, la multicollinearità è elevata tra i predittori.
L'uso di VIF è più robusto della semplice correlazione di Pearson?
Aggiornare
Ho trovato un blog interessante su:
http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/
Il blogger fornisce un codice utile per calcolare VIF per i modelli dal pacchetto lme4.
Ho testato il codice e funziona benissimo. Nella mia analisi successiva, ho scoperto che la multicollinearità non era un problema per i miei modelli (tutti i valori VIF <3). Questo è stato interessante, dato che in precedenza avevo trovato un'alta correlazione di Pearson tra alcuni predittori.
http://highstat.com/Books/BGS/GAMM/RCodeP2/HighstatLibV6.R
AED
pacchetto è stato sospeso ; invece, solosource("http://www.highstat.com/Book2/HighstatLibV6.R")
per lacorvif
funzione. (2) Spero di fornire una risposta reale, ma (a) credo che VIF tenga conto della multicollinearità (ad es. Potresti avere tre predittori, nessuno dei quali ha forti correlazioni a coppie, ma la combinazione lineare di A e B è fortemente correlata a C ) e (b) nutro forti riserve sulla saggezza di abbandonare i termini collettivi; vedi Graham Ecology 2003, doi: 10.1890 / 02-3114