Interpretazione plot.lm ()

Avevo una domanda sull'interpretazione dei grafici generati dalla trama (lm) in R. Mi stavo chiedendo se potreste dirmi come interpretare i grafici della posizione in scala e della leva residua? Eventuali commenti sarebbero apprezzati. Assumi le conoscenze di base di statistica, regressione ed econometria.

— ospite
fonte

hai un'occhiata qui ?

— user603

e qui (da pagina 72 in poi), qui .

— COOLSerdash

139

Come indicato nella documentazione , è plot.lm()possibile restituire 6 grafici diversi:

[1] un diagramma dei residui rispetto ai valori adattati, [2] un diagramma scala-posizione di sqrt (| residui |) rispetto ai valori adattati, [3] un diagramma QQ normale, [4] un diagramma delle distanze di Cook rispetto alle etichette delle righe, [5] un diagramma dei residui contro le leve e [6] un diagramma delle distanze di Cook contro la leva / (1 leva). Per impostazione predefinita, vengono forniti i primi tre e 5. (la mia numerazione )

I grafici [1] , [2] , [3] e [5] vengono restituiti per impostazione predefinita. L'interpretazione [1] è discussa nel CV qui: interpretazione dei residui rispetto alla trama adattata per la verifica delle ipotesi di un modello lineare . Ho spiegato l'ipotesi di omoscedasticità e i grafici che possono aiutarvi a valutarlo (inclusi i grafici di scala di posizione [2] ) sul CV qui: Cosa significa avere una varianza costante in un modello di regressione lineare? Ho discusso di qq-plot [3] su CV qui: il diagramma QQ non corrisponde all'istogramma e qui: grafici PP vs grafici QQ . C'è anche un'ottima panoramica qui: Come interpretare una trama QQ? Quindi, ciò che resta è principalmente la comprensione [5] , il diagramma della leva residua.

Per capirlo, dobbiamo capire tre cose:

leva,
residui standardizzati e
La distanza di Cook.

Per comprendere l' effetto leva , riconoscere che la regressione dei minimi quadrati ordinari si adatta a una linea che passerà attraverso il centro dei dati . La linea può essere leggermente o fortemente inclinata, ma ruoterà attorno a quel punto come una leva su un fulcro . Possiamo prendere questa analogia in modo abbastanza letterale: poiché OLS cerca di minimizzare le distanze verticali tra i dati e la linea *, i punti di dati che sono più in là verso gli estremi di spingeranno / tireranno più forte sulla leva (cioè, la linea di regressione ); hanno più leva . Un risultato di questo potrebbe $(\bar X,~\bar Y)$ $X$ sia che i risultati ottenuti siano guidati da alcuni punti dati; questo è ciò che questa trama ha lo scopo di aiutarti a determinare.

Un altro risultato del fatto che i punti più in alto su hanno più leva è che tendono ad essere più vicini alla linea di regressione (o più precisamente: la linea di regressione è adatta in modo da essere più vicini a loro ) rispetto ai punti vicini a . In altre parole, il residuo deviazione standard può differire in diversi punti sulla (anche se l' errore deviazione standard è costante). Per correggere ciò, i residui sono spesso standardizzati in modo da avere una varianza costante (supponendo che il processo di generazione dei dati sottostante sia omoscedastico, ovviamente). $X$ $\bar X$ $X$

Un modo per pensare se i risultati ottenuti sono stati determinati da un determinato punto dati è calcolare fino a che punto si sposteranno i valori previsti per i tuoi dati se il tuo modello fosse adatto senza il punto dati in questione. Questa distanza totale calcolata è chiamata distanza di Cook . Fortunatamente, non è necessario rieseguire il modello di regressione volte per scoprire fino a che punto si sposteranno i valori previsti, la D di Cook è una funzione della leva finanziaria e dei residui standardizzati associati a ciascun punto dati. $N$

Tenendo presenti questi fatti, considera le trame associate a quattro diverse situazioni:

un set di dati in cui tutto va bene
un set di dati con un punto residuo ad alta leva, ma a bassa standardizzazione
un set di dati con un punto residuo a bassa leva, ma standardizzato elevato
un set di dati con un punto residuo ad alta leva e standardizzato elevato

inserisci qui la descrizione dell'immagine

I grafici a sinistra mostrano i dati, il centro dei dati con un punto blu, il processo di generazione dei dati sottostante con una linea grigia tratteggiata, il modello si adatta con una linea blu e il punto speciale con un punto rosso. Sulla destra sono i corrispondenti diagrammi leva finanziaria residua; il punto speciale è . Il modello è gravemente distorto principalmente nel quarto caso in cui esiste un punto con leva elevata e un residuo standardizzato (negativo) di grandi dimensioni. Per riferimento, ecco i valori associati ai punti speciali: $(\bar X,~\bar Y)$ 21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

Di seguito è riportato il codice che ho usato per generare questi grafici:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* _{Per aiutare a capire come la regressione OLS cerca di trovare la linea che minimizza le distanze verticali tra i dati e la linea, vedi la mia risposta qui: Qual è la differenza tra la regressione lineare su y con xe x con y?}

— gung - Ripristina Monica
fonte

Buona risposta che punta in tutte le direzioni di scrittura per saperne di più. (Devo chiedermi perché ci sia una tale scarsità di spiegazioni complete E chiare di queste trame)

— theforestecologist

Anche se qui è un esempio di una breve spiegazione consolidata per ogni trama.

— forestecologo il