Ha senso studiare trame di residui rispetto alla variabile dipendente?


11

Vorrei sapere se ha senso studiare le trame dei residui rispetto alla variabile dipendente quando ho una regressione univariata. Se ha senso, cosa significa una correlazione crescente, lineare e crescente tra i residui (sull'asse y) e i valori stimati della variabile dipendente (sull'asse x)?

inserisci qui la descrizione dell'immagine


3
Non sono sicuro di cosa intendi per "correlazione forte, lineare e crescente". Puoi mostrare la trama? È perfettamente ragionevole tracciare i residui rispetto ai valori adattati. In generale, si desidera che non vi siano relazioni: una linea orizzontale piatta che attraversa il centro. Inoltre, vuoi che la dispersione verticale dei residui sia costante dal lato sinistro del diagramma a destra.
gung - Ripristina Monica

Ciao. La ringrazio per la risposta. Questa è la trama: img100.imageshack.us/img100/7414/bwages.png
Luigi

Questo è sconcertante. Fammi capire: hai eseguito un modello di regressione, quindi hai tracciato i residui rispetto ai valori adattati, ed è quello che hai ottenuto, giusto? Non dovrebbe essere così. Puoi modificare la tua domanda e incollare il codice che hai usato per il modello e la trama?
gung - Ripristina Monica

Hai capito bene. Mi dispiace, ma non so come recuperare il codice, ho eseguito la regressione e tracciato i residui con il programma Gretl.
Luigi

2
Inizialmente non ho visto il commento di @ mark999 quando ho scritto la mia risposta qui sotto. Penso che il suo sospetto sia corretto, che si tratti di residui rispetto ai valori y. Luigi, ripeti il ​​tuo grafico - non cercare di interpretarlo quando potresti avere torto su quali siano le variabili.
Michael Bishop,

Risposte:


12

Supponiamo di avere la regressione , dove β 10 . Quindi, y i - β 0ϵ i . Maggiore è il valore y , maggiore è il residuo. Al contrario, un diagramma dei residui contro x non dovrebbe mostrare alcuna relazione sistematica. Inoltre, il valore previsto y i dovrebbe essere approssimativamente β 0yio=β0+β1Xio+εioβ10yio-β0εioyXy^ioβ^0--- lo stesso per ogni osservazione. Se tutti i valori previsti sono approssimativamente uguali, devono essere non correlati agli errori.

Quello che la trama mi sta dicendo è che ed y sono sostanzialmente estranei (naturalmente, ci sono modi migliori per mostrare questo). Fateci sapere se il coefficiente beta 1 non è vicino a 0.Xyβ^1

Come migliore diagnostica, utilizzare un grafico dei residui rispetto al salario previsto o al valore . Non dovresti osservare uno schema distinguibile in questi grafici.X

Se vuoi una piccola dimostrazione R, ecco qui:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

β1=0

5

Supponendo che il modello stimato sia correttamente specificato ...

PX=X(X'X)-1X'PXPX2=PXPX'=PX

Cov(Y^,e^)=Cov(PXY,(io-PX)Y)=PXCov(Y,Y)(io-PX)'=σ2PX(io-PX)=0

Quindi il diagramma a dispersione dei residui rispetto alla variabile dipendente prevista non dovrebbe mostrare alcuna correlazione.

Ma!

Cov(Y,e^)=Cov(Y,(io-PX)Y)=Cov(Y,Y)(io-PX)'=σ2(io-PX)

σ2(io-PX)

Per quanto ne so, Gretl produce di default il grafico dei residui rispetto alla variabile dipendente originale (non quella prevista!).


Apprezzo le diverse possibilità. Questo è dove una certa conoscenza di Gretl è utile. Mi chiedo tuttavia quanto sia plausibile che questa sia la vera risposta. Usando i miei dati simulati, ho correlato e tracciato i residui rispetto al dv originale; r = .22 e la trama assomiglia molto alla mia terza trama, non alla trama della domanda. Certo, ho elaborato quei dati per verificare la plausibilità della mia storia - potrebbero non essere appropriati per controllare la tua.
gung - Ripristina Monica

@gung cosa intendi con i tuoi dati simulati?
Michael Bishop,

@MichaelBishop se guardi la mia risposta, vedi che ho simulato i dati per provare la mia storia per vedere se sarebbe simile alla trama pubblicata. Il mio codice e le trame sono presentati. Da quando ho specificato il seme, è riproducibile da chiunque abbia accesso a R.
gung - Reinstate Monica

4

È possibile che si confondano i valori adattati / previsti con i valori effettivi?

Come hanno detto @gung e @biostat, speri che non vi sia alcuna relazione tra valori adattati e residui. D'altra parte, trovare una relazione lineare tra i valori effettivi della variabile dipendente / risultato e i residui è prevedibile e non è particolarmente informativo.

Aggiunto per chiarire la frase precedente: non ci si aspetta solo una relazione lineare tra i residui e i valori effettivi dell'outcome ... Per i valori misurati bassi di Y, i valori previsti di Y da un modello utile tenderanno ad essere più alti di i valori misurati effettivi e viceversa.


L'implicazione di ciò che stai dicendo è che, se i valori sono costantemente sottostimati a valori bassi di Y, e costantemente sovrastimati da valori elevati di Y, va bene. Questo è un problema, giusto?
rolando2,

@ rolando2, non ho sottinteso quello che dici che ho insinuato anche se forse dovrei chiarire la mia risposta. Come hai detto, sottovalutare costantemente a bassi valori di Y e prevedere troppo ad alti valori di Y sarebbe un segno di un modello molto cattivo. Ho immaginato il contrario, prevedendo troppo a bassi valori di Y e sottostimando a valori alti di Y. Questo fenomeno è comune e ci si aspetta approssimativamente in proporzione a quanto della varianza nella variabile dipendente si è in grado di spiegare. Immagina di non avere variabili che predicono Y, quindi usi sempre la media come previsione
Michael Bishop,

1
quello che hai detto ha senso per me, tranne una cosa. Ho difficoltà a immaginare che una tendenza forte come quella mostrata da Luigi si sarebbe mai presentata in una soluzione sana o desiderabile, anche se la tendenza andava da sinistra in alto a destra in basso.
rolando2,

1
@ rolando2, I residui sono generalmente definiti come osservati - adattati, quindi i residui negativi sono sovrastimati. In un modello adeguatamente specificato con scarso potere esplicativo - sono uno scienziato sociale, quindi li vedo sempre - ci sarà una forte relazione positiva tra i residui e i valori dei risultati osservati. Se si tratta di una trama residua rispetto a quella reale, allora una tendenza da sinistra in alto a destra in basso sarebbe il segnale di un modello mal specificato, di cui inizialmente ti preoccupavi.
Michael Bishop,

Ok, colpa mia. Come hanno scritto Michael Bishop e Roah, Gretl traccia i residui rispetto alla y osservata , non a quella prevista. Mi dispiace molto per tutto questo casino, non mi aspettavo davvero tutte queste risposte. Sono un principiante e ho fatto questo errore, quindi spero che tu possa "perdonarmi". Ad ogni modo, penso che questo dovrebbe indicarmi che avrei dovuto usare più variabili esplicative. Grazie a tutti!
Luigi

3

Le risposte offerte mi stanno dando alcune idee su cosa sta succedendo qui. Credo che potrebbero esserci stati degli errori commessi per caso. Vedi se la seguente storia ha senso: per iniziare, penso che ci sia probabilmente una forte relazione tra X e Y nei dati (ecco un po 'di codice e una trama):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

inserisci qui la descrizione dell'immagine

Ma per errore Y era previsto proprio dalla media. A complemento di ciò, i residui del solo modello medio sono tracciati rispetto a X, anche se ciò che si intendeva era tracciare contro i valori adattati (codice e trama):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

inserisci qui la descrizione dell'immagine

Possiamo risolvere questo problema inserendo il modello appropriato e tracciando i residui da quello (codice e trama):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

inserisci qui la descrizione dell'immagine

Sembra proprio il tipo di sciocchezze che ho fatto quando stavo iniziando.


0

Questo grafico indica che il modello che hai montato non è buono. Come ha detto @gung nei primi commenti sulla domanda principale che non dovrebbe esserci alcuna relazione tra risposta prevista e residuo.

"un analista dovrebbe aspettarsi che un modello di regressione vada in errore nel prevedere una risposta in modo casuale; il modello dovrebbe prevedere valori uguali e reali rispetto a quelli reali con uguale probabilità. Vedi questo "

Consiglierei la prima risposta della trama contro la variabile indipendente per vedere la relazione tra di loro. Potrebbe essere ragionevole aggiungere termini polinomiali nel modello.


0

Non è questo ciò che accade se non esiste alcuna relazione tra la variabile X e Y? Guardando questo grafico, sembra che tu stia essenzialmente predicendo Y con la sua media.


0

Penso che OP abbia tracciato i residui rispetto alla variabile di risposta originale (non la variabile di risposta adattata dal modello). Vedo sempre trame come questa, con quasi lo stesso schema esatto. Assicurati di tracciare i residui rispetto ai valori adattati, poiché non sono sicuro di quale inferenza significativa potresti ricavare dai residui rispetto a Y originale. Ma potrei certamente sbagliarmi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.