Come indicato nella documentazione , è plot.lm()
possibile restituire 6 grafici diversi:
[1] un diagramma dei residui rispetto ai valori adattati, [2] un diagramma scala-posizione di sqrt (| residui |) rispetto ai valori adattati, [3] un diagramma QQ normale, [4] un diagramma delle distanze di Cook rispetto alle etichette delle righe, [5] un diagramma dei residui contro le leve e [6] un diagramma delle distanze di Cook contro la leva / (1 leva). Per impostazione predefinita, vengono forniti i primi tre e 5. (la mia numerazione )
I grafici [1] , [2] , [3] e [5] vengono restituiti per impostazione predefinita. L'interpretazione [1] è discussa nel CV qui: interpretazione dei residui rispetto alla trama adattata per la verifica delle ipotesi di un modello lineare . Ho spiegato l'ipotesi di omoscedasticità e i grafici che possono aiutarvi a valutarlo (inclusi i grafici di scala di posizione [2] ) sul CV qui: Cosa significa avere una varianza costante in un modello di regressione lineare? Ho discusso di qq-plot [3] su CV qui: il diagramma QQ non corrisponde all'istogramma e qui: grafici PP vs grafici QQ . C'è anche un'ottima panoramica qui: Come interpretare una trama QQ? Quindi, ciò che resta è principalmente la comprensione [5] , il diagramma della leva residua.
Per capirlo, dobbiamo capire tre cose:
- leva,
- residui standardizzati e
- La distanza di Cook.
Per comprendere l' effetto leva , riconoscere che la regressione dei minimi quadrati ordinari si adatta a una linea che passerà attraverso il centro dei dati . La linea può essere leggermente o fortemente inclinata, ma ruoterà attorno a quel punto come una leva su un fulcro . Possiamo prendere questa analogia in modo abbastanza letterale: poiché OLS cerca di minimizzare le distanze verticali tra i dati e la linea *, i punti di dati che sono più in là verso gli estremi di spingeranno / tireranno più forte sulla leva (cioè, la linea di regressione ); hanno più leva . Un risultato di questo potrebbe(X¯, Y¯)Xsia che i risultati ottenuti siano guidati da alcuni punti dati; questo è ciò che questa trama ha lo scopo di aiutarti a determinare.
Un altro risultato del fatto che i punti più in alto su hanno più leva è che tendono ad essere più vicini alla linea di regressione (o più precisamente: la linea di regressione è adatta in modo da essere più vicini a loro ) rispetto ai punti vicini a . In altre parole, il residuo deviazione standard può differire in diversi punti sulla (anche se l' errore deviazione standard è costante). Per correggere ciò, i residui sono spesso standardizzati in modo da avere una varianza costante (supponendo che il processo di generazione dei dati sottostante sia omoscedastico, ovviamente). XX¯X
Un modo per pensare se i risultati ottenuti sono stati determinati da un determinato punto dati è calcolare fino a che punto si sposteranno i valori previsti per i tuoi dati se il tuo modello fosse adatto senza il punto dati in questione. Questa distanza totale calcolata è chiamata distanza di Cook . Fortunatamente, non è necessario rieseguire il modello di regressione volte per scoprire fino a che punto si sposteranno i valori previsti, la D di Cook è una funzione della leva finanziaria e dei residui standardizzati associati a ciascun punto dati. N
Tenendo presenti questi fatti, considera le trame associate a quattro diverse situazioni:
- un set di dati in cui tutto va bene
- un set di dati con un punto residuo ad alta leva, ma a bassa standardizzazione
- un set di dati con un punto residuo a bassa leva, ma standardizzato elevato
- un set di dati con un punto residuo ad alta leva e standardizzato elevato
I grafici a sinistra mostrano i dati, il centro dei dati con un punto blu, il processo di generazione dei dati sottostante con una linea grigia tratteggiata, il modello si adatta con una linea blu e il punto speciale con un punto rosso. Sulla destra sono i corrispondenti diagrammi leva finanziaria residua; il punto speciale è . Il modello è gravemente distorto principalmente nel quarto caso in cui esiste un punto con leva elevata e un residuo standardizzato (negativo) di grandi dimensioni. Per riferimento, ecco i valori associati ai punti speciali: (X¯, Y¯)21
leverage std.residual cooks.d
high leverage, low residual 0.3814234 0.0014559 0.0000007
low leverage, high residual 0.0476191 3.4456341 0.2968102
high leverage, high residual 0.3814234 -3.8086475 4.4722437
Di seguito è riportato il codice che ho usato per generare questi grafici:
set.seed(20)
x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)
x2 = c(x1, 30); y2 = c(y1, 20.8)
x3 = c(x1, 19.44); y3 = c(y1, 20.8)
x4 = c(x1, 30); y4 = c(y1, 10)
* Per aiutare a capire come la regressione OLS cerca di trovare la linea che minimizza le distanze verticali tra i dati e la linea, vedi la mia risposta qui: Qual è la differenza tra la regressione lineare su y con xe x con y?