Calcolo di


13

Ho letto sul calcolo dei valori di in modelli misti e dopo aver letto le FAQ di R-sig, altri post su questo forum (ne collegherei alcuni ma non ho abbastanza reputazione) e molti altri riferimenti che capisco che usando valori di nel contesto di modelli misti sono complicati.R 2R2R2

Tuttavia, di recente mi sono imbattuto in questi due articoli di seguito. Mentre questi metodi sembrano promettenti (per me) non sono uno statistico, e come tale mi chiedevo se qualcun altro avrebbe avuto un'idea dei metodi che proponevano e di come si sarebbero confrontati con altri metodi che sono stati proposti.

Nakagawa, Shinichi e Holger Schielzeth. "Un metodo generale e semplice per ottenere R2 da modelli lineari generalizzati a effetti misti." Methods in Ecology and Evolution 4.2 (2013): 133-142.

Johnson, Paul CD. "Estensione di R2GLMM di Nakagawa & Schielzeth ai modelli a pendenza casuale." Methods in Ecology and Evolution (2014).

Il metodo is può anche essere implementato usando la funzione r.squaredGLMM nel pacchetto MuMIn che fornisce la seguente descrizione del metodo.

Per i modelli a effetti misti, può essere classificato in due tipi. Marginale rappresenta la varianza spiegata da fattori fissi ed è definita come: La viene interpretata come varianza spiegata da fattori sia fissi che casuali (cioè l'intero modello) e viene calcolata in base all'equazione: dove è la varianza dei componenti degli effetti fissi e è la somma di tutti i componenti di varianza (gruppo, individuo, ecc.),R 2R2R2 R2RGLMM(c)2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 σ 2 f(σ 2 l )σ 2 l σ 2 d
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2è la varianza dovuta alla dispersione additiva e è la varianza specifica della distribuzione. σd2

Nella mia analisi sto esaminando i dati longitudinali e sono principalmente interessato alla varianza spiegata dagli effetti fissi nel modello

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 

Ho modificato il tuo post per utilizzare la formattazione mathjax. Ricontrolla che non ho introdotto errori per errore.
Sycorax dice di reintegrare Monica il

La tua domanda manca di una vera domanda per quanto io la capisca. Puoi chiarire quello che vuoi? Una raccomandazione cosa usare?
Henrik,

Ciao @Henrik, ero interessato a una raccomandazione su cosa usare, sì, ma anche più in generale come i diversi metodi si confrontano tra loro e quali sono le differenze.
Andrews,

Credo che le equazioni originali e sopra siano sbagliate. Ciò non è dovuto alle modifiche di @ user777. I due termini a destra dovrebbero essere nel denominatore. Vedere questo .
Cyrille,

Questo errore è stato probabilmente causato a causa della mancanza della parentesi di chiusura nella documentazione del pacchetto MuMIn .
Cyrille,

Risposte:


11

Sto rispondendo incollando la risposta di Douglas Bates nella mailing list di R-Sig-ME, il 17 dic 2014 sulla domanda su come calcolare una statistica per modelli misti lineari generalizzati, che credo sia richiesta per chiunque sia interessato a una cosa del genere. Bates è l'autore originale del pacchetto per R e coautore di , nonché coautore di un noto libro su modelli misti , e CV trarrà vantaggio dall'avere il testo in una risposta, piuttosto che un semplice link a esso.R2lme4nlme

Devo ammettere di diventare un po 'nervoso quando le persone parlano di "R2 per GLMM". R2 per un modello lineare è ben definito e ha molte proprietà desiderabili. Per altri modelli si possono definire quantità diverse che riflettono alcune ma non tutte queste proprietà. Ma questo non sta calcolando un R2 nel senso di ottenere un numero con tutte le proprietà di R2 per i modelli lineari. Di solito ci sono diversi modi per definire una tale quantità. Soprattutto per GLM e GLMM prima di poter definire la "proporzione della varianza di risposta spiegata", è necessario innanzitutto definire cosa si intende per "varianza di risposta".

La confusione su ciò che costituisce R2 o gradi di libertà di una qualsiasi delle altre quantità associate a modelli lineari applicata ad altri modelli deriva dalla confusione della formula con il concetto. Sebbene le formule derivino da modelli, la derivazione implica spesso una matematica abbastanza sofisticata. Per evitare una derivazione potenzialmente confusa e semplicemente "tagliare all'inseguimento" è più semplice presentare le formule. Ma la formula non è il concetto. Generalizzare una formula non equivale a generalizzare il concetto. E quelle formule non sono quasi mai utilizzate nella pratica, specialmente per modelli lineari generalizzati, analisi di varianza ed effetti casuali. Ho un "meta-teorema" che l'unica quantità effettivamente calcolata secondo le formule fornite nei testi introduttivi è la media campionaria.

Può sembrare che io sia un vecchio scontroso su questo, e forse lo sono, ma il pericolo è che le persone si aspettino che una quantità "simile a R2" abbia tutte le proprietà di un R2 per i modelli lineari. Non può. Non c'è modo di generalizzare tutte le proprietà a un modello molto più complicato come un GLMM.

Una volta ero in commissione per esaminare una proposta di tesi di dottorato. candidatura. La proposta era di esaminare, credo, 9 diverse formule che potevano essere considerate come modi per calcolare un R2 per un modello di regressione non lineare per decidere quale fosse "migliore". Ovviamente, ciò verrebbe fatto attraverso uno studio di simulazione con solo un paio di modelli diversi e solo alcuni insiemi diversi di valori dei parametri per ciascuno. Il mio suggerimento che si trattasse di un esercizio completamente insignificante non è stato accolto calorosamente.


10

Dopo aver sfogliato la letteratura, mi sono imbattuto nel seguente documento che confronta diversi metodi per il calcolo dei valori di per modelli misti, in cui i metodi (MVP) sono equivalenti al metodo proposto da Nakagawa e Schielzeth.R 2R2R2

  • Lahuis, D et al (2014) hanno spiegato le misure di varianza per i modelli multilivello. Metodi di ricerca organizzativa.

inserisci qui la descrizione dell'immagine

Complessivamente, la maggior parte delle misure (Formula, Formula, (OLS) e (MVP)) hanno mostrato livelli accettabili di distorsione, coerenza ed efficienza in tutte le condizioni e modelli. Inoltre, la differenza nei valori di bias medi per queste misure era piccola. Formula e Formula erano le meno distorte nei modelli di intercettazione casuale e Formula e (MVP) erano le meno distorte nei modelli a pendenza casuale. In termini di efficienza, Formula e (MVP) presentavano i valori di deviazione standard più bassi nel modello di intercettazione casuale. (MVP) e (OLS) avevano le deviazioni standard più basse nel modello a pendenza casuale. In generale, Formula non era uno stimatore efficiente.R 2 R 2 R 2 R 2 R 2R2R2R2R2R2R2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.