Interpretazione della trama (glm.model)

Qualcuno può dirmi come interpretare le trame "Residui vs adattati", "Q-q normale", "posizione in scala" e "Residui contro leva"? Sto montando un GLM binomiale, salvandolo e quindi pianificandolo.

— Estate
fonte

Sai come interpretare quelle trame quando hai a che fare con una regressione lineare regolare? Perché quello dovrebbe essere il tuo punto di partenza.

— Steve S,

Risposte:

Rnon ha un plot.glm()metodo distinto . Quando si adatta un modello con glm()ed esegui plot(), viene chiamato ? Plot.lm , che è appropriato per i modelli lineari (ovvero con un termine di errore normalmente distribuito).

In generale, il significato di questi grafici (almeno per i modelli lineari) può essere appreso in vari thread esistenti su CV (ad esempio: Residui contro montaggio ; Grafici qq in diversi punti: 1 , 2 , 3 ; Scala-Posizione ; Residui vs leva finanziaria ). Tuttavia, tali interpretazioni non sono generalmente valide quando il modello in questione è una regressione logistica.

Più specificamente, le trame spesso "sembreranno divertenti" e porteranno le persone a credere che ci sia qualcosa di sbagliato nel modello quando va perfettamente bene. Possiamo vederlo guardando quei grafici con un paio di semplici simulazioni in cui sappiamo che il modello è corretto:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

Ora diamo un'occhiata alle trame che otteniamo da plot.lm():

inserisci qui la descrizione dell'immagine

Sia la trama che Residuals vs Fittedla Scale-Locationtrama sembrano avere problemi con il modello, ma sappiamo che non ce ne sono. Questi grafici, destinati a modelli lineari, sono spesso fuorvianti se utilizzati con un modello di regressione logistica.

Diamo un'occhiata a un altro esempio:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

inserisci qui la descrizione dell'immagine

Ora tutte le trame sembrano strane.

Cosa ti mostrano questi grafici?

La Residuals vs Fittedtrama può aiutarti a vedere, ad esempio, se ci sono tendenze curvilinee che ti sei perso. Ma la misura di una regressione logistica è curvilinea per natura, quindi puoi avere strane tendenze nei residui senza nulla di sbagliato.
La Normal Q-Qtrama ti aiuta a rilevare se i tuoi residui sono normalmente distribuiti. Ma i residui di devianza non devono essere normalmente distribuiti affinché il modello sia valido, quindi la normalità / non normalità dei residui non ti dice necessariamente nulla.
La Scale-Locationtrama può aiutarti a identificare l'eteroscedasticità. Ma i modelli di regressione logistica sono praticamente eteroscedastici per natura.
La Residuals vs Leveragepuò aiutare a identificare eventuali valori anomali. Ma i valori anomali nella regressione logistica non si manifestano necessariamente nello stesso modo della regressione lineare, quindi questa trama può o non può essere utile per identificarli.

La semplice lezione da portare a casa qui è che questi grafici possono essere molto difficili da usare per aiutarti a capire cosa sta succedendo con il tuo modello di regressione logistica. Probabilmente è meglio per le persone non guardare affatto questi grafici quando si esegue la regressione logistica, a meno che non abbiano una notevole esperienza.

— gung - Ripristina Monica
fonte

Buon dolore, questa è una risposta incredibile.

— d8aninja,

@gung Potresti dire cosa possiamo fare se è un problema? Esiste un'alternativa a QQ, Residual vs Fitted? Per esempio, ho tracciato un GLM di poisson link, ma non so come analizzarlo se si adatta bene

— GRS

@GRS, prova a leggere questo .

— gung - Ripristina Monica

@Tutte le tue risposte sono dettagliate e chiare. Oltre a leggere da più fonti, incluso questo sito, puoi fare riferimento a uno o due buoni libri / siti per ottenere "notevoli competenze" nella comprensione dei grafici diagnostici? Capisco che poche abilità possiamo ottenere solo con la pratica e l'esperienza, ma se qualsiasi libro / sito web particolare che copre i dettagli in modo approfondito se è possibile fare riferimento, sarebbe di grande aiuto.

— Dr Nisha Arora,

@DrNishaArora, non proprio di cui sono a conoscenza. Ci sono alcuni libri che sono rilevanti per LR, ma non passeranno molto tempo su queste trame, per i motivi indicati.

— gung - Ripristina Monica

Residui vs misura - non dovrebbero esserci schemi forti (i modelli lievi non sono un problema, vedi la risposta di @ gung) e nessun valore anomalo, i residui dovrebbero essere distribuiti casualmente attorno allo zero.
QQ normale - i residui dovrebbero andare attorno alla linea diagonale, cioè dovrebbero essere normalmente distribuiti (vedi wiki per il diagramma QQ ). Questo diagramma aiuta a verificare se sono approssimativamente normali.
Posizione in scala - come puoi vedere, sull'asse Y ci sono anche dei residui (come nel diagramma Residui contro trama adattata), ma sono ridimensionati, quindi è simile a (1), ma in alcuni casi funziona meglio.
Residui vs leva finanziaria: aiuta a diagnosticare i casi periferici. Come nelle trame precedenti, i casi periferici sono numerati, ma su questa trama se ci sono casi che sono molto diversi dal resto dei dati, vengono tracciati sotto sottili linee rosse (controlla la wiki sulla distanza di Cook ).

Leggi di più sulle ipotesi di regressione in quanto in molti aspetti ci sono simili (ad esempio qui o tutorial sulla regressione in R qui ).

— Tim
fonte

Questa risposta non è corretta nel contesto di glm, come ben definito da @gung, nella risposta sopra. Se stai cercando una risposta a questa domanda, IGNORA QUESTA RISPOSTA. Se sei l'autore di questa risposta, controlla la risposta sopra di gung. Se sei d'accordo, dovresti considerare di eliminare questa risposta, poiché è fuorviante.

— colin

@colin Vuoi commentare cosa non va esattamente secondo te con questa risposta? L'unica differenza tra la mia e la seconda risposta è che il gung entra in maggiori dettagli ...

— Tim

descrivi come questi grafici dovrebbero essere usati nel contesto della regressione lineare. gung descrive perché queste interpretazioni falliscono in questo caso, perché vengono applicate a un modello glm binomiale. Quindi, se un utente ha interpretato questi grafici diagnostici come suggerisci (e i tuoi suggerimenti sarebbero utili in un caso di lm), concluderanno erroneamente che il loro modello viola le ipotesi di glm, quando in realtà non lo è.

— colin

scrivi "Residui vs misura - non dovrebbero esserci schemi né valori anomali, i residui dovrebbero essere distribuiti casualmente intorno a 0." gung scrive: "La trama Residuals vs Fitted può aiutarti a vedere, ad esempio, se ci sono tendenze curvilinee che ti sei perso. Ma l'adattamento di una regressione logistica è curvilineo per natura, quindi puoi avere tendenze strane nei residui senza nulla che non va." ... uno di voi deve avere torto.

— colin

Sono d'accordo, questo non è in bianco e nero, ma ci sono molti casi in cui ci sono tendenze forti, ma il modello specificato è totalmente appropriato sotto le ipotesi del glm specifico. Pertanto, affermando, "non dovrebbero esserci schemi e valori anomali, i residui dovrebbero essere distribuiti casualmente intorno a 0." viene facilmente interpretato che se esiste un modello, hai violato i presupposti del modello. Questo non è il caso.

— Colin