Interpretazione plot.lm ()


89

Avevo una domanda sull'interpretazione dei grafici generati dalla trama (lm) in R. Mi stavo chiedendo se potreste dirmi come interpretare i grafici della posizione in scala e della leva residua? Eventuali commenti sarebbero apprezzati. Assumi le conoscenze di base di statistica, regressione ed econometria.


hai un'occhiata qui ?
user603

6
e qui (da pagina 72 in poi), qui .
COOLSerdash

Risposte:


139

Come indicato nella documentazione , è plot.lm()possibile restituire 6 grafici diversi:

[1] un diagramma dei residui rispetto ai valori adattati, [2] un diagramma scala-posizione di sqrt (| residui |) rispetto ai valori adattati, [3] un diagramma QQ normale, [4] un diagramma delle distanze di Cook rispetto alle etichette delle righe, [5] un diagramma dei residui contro le leve e [6] un diagramma delle distanze di Cook contro la leva / (1 leva). Per impostazione predefinita, vengono forniti i primi tre e 5. (la mia numerazione )

I grafici [1] , [2] , [3] e [5] vengono restituiti per impostazione predefinita. L'interpretazione [1] è discussa nel CV qui: interpretazione dei residui rispetto alla trama adattata per la verifica delle ipotesi di un modello lineare . Ho spiegato l'ipotesi di omoscedasticità e i grafici che possono aiutarvi a valutarlo (inclusi i grafici di scala di posizione [2] ) sul CV qui: Cosa significa avere una varianza costante in un modello di regressione lineare? Ho discusso di qq-plot [3] su CV qui: il diagramma QQ non corrisponde all'istogramma e qui: grafici PP vs grafici QQ . C'è anche un'ottima panoramica qui: Come interpretare una trama QQ? Quindi, ciò che resta è principalmente la comprensione [5] , il diagramma della leva residua.

Per capirlo, dobbiamo capire tre cose:

  • leva,
  • residui standardizzati e
  • La distanza di Cook.

Per comprendere l' effetto leva , riconoscere che la regressione dei minimi quadrati ordinari si adatta a una linea che passerà attraverso il centro dei dati . La linea può essere leggermente o fortemente inclinata, ma ruoterà attorno a quel punto come una leva su un fulcro . Possiamo prendere questa analogia in modo abbastanza letterale: poiché OLS cerca di minimizzare le distanze verticali tra i dati e la linea *, i punti di dati che sono più in là verso gli estremi di spingeranno / tireranno più forte sulla leva (cioè, la linea di regressione ); hanno più leva . Un risultato di questo potrebbe(X¯, Y¯)Xsia che i risultati ottenuti siano guidati da alcuni punti dati; questo è ciò che questa trama ha lo scopo di aiutarti a determinare.

Un altro risultato del fatto che i punti più in alto su hanno più leva è che tendono ad essere più vicini alla linea di regressione (o più precisamente: la linea di regressione è adatta in modo da essere più vicini a loro ) rispetto ai punti vicini a . In altre parole, il residuo deviazione standard può differire in diversi punti sulla (anche se l' errore deviazione standard è costante). Per correggere ciò, i residui sono spesso standardizzati in modo da avere una varianza costante (supponendo che il processo di generazione dei dati sottostante sia omoscedastico, ovviamente). XX¯X

Un modo per pensare se i risultati ottenuti sono stati determinati da un determinato punto dati è calcolare fino a che punto si sposteranno i valori previsti per i tuoi dati se il tuo modello fosse adatto senza il punto dati in questione. Questa distanza totale calcolata è chiamata distanza di Cook . Fortunatamente, non è necessario rieseguire il modello di regressione volte per scoprire fino a che punto si sposteranno i valori previsti, la D di Cook è una funzione della leva finanziaria e dei residui standardizzati associati a ciascun punto dati. N

Tenendo presenti questi fatti, considera le trame associate a quattro diverse situazioni:

  1. un set di dati in cui tutto va bene
  2. un set di dati con un punto residuo ad alta leva, ma a bassa standardizzazione
  3. un set di dati con un punto residuo a bassa leva, ma standardizzato elevato
  4. un set di dati con un punto residuo ad alta leva e standardizzato elevato

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

I grafici a sinistra mostrano i dati, il centro dei dati con un punto blu, il processo di generazione dei dati sottostante con una linea grigia tratteggiata, il modello si adatta con una linea blu e il punto speciale con un punto rosso. Sulla destra sono i corrispondenti diagrammi leva finanziaria residua; il punto speciale è . Il modello è gravemente distorto principalmente nel quarto caso in cui esiste un punto con leva elevata e un residuo standardizzato (negativo) di grandi dimensioni. Per riferimento, ecco i valori associati ai punti speciali: (X¯, Y¯)21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

Di seguito è riportato il codice che ho usato per generare questi grafici:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* Per aiutare a capire come la regressione OLS cerca di trovare la linea che minimizza le distanze verticali tra i dati e la linea, vedi la mia risposta qui: Qual è la differenza tra la regressione lineare su y con xe x con y?


Buona risposta che punta in tutte le direzioni di scrittura per saperne di più. (Devo chiedermi perché ci sia una tale scarsità di spiegazioni complete E chiare di queste trame)
theforestecologist

Anche se qui è un esempio di una breve spiegazione consolidata per ogni trama.
forestecologo il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.