Interpretazione dei grafici dei valori residui e di quelli adattati per la verifica delle ipotesi di un modello lineare


34

Considera la figura seguente dei Modelli lineari di Faraway con R (2005, p. 59).

inserisci qui la descrizione dell'immagine

Il primo diagramma sembra indicare che i valori residui e adattati non sono correlati, come dovrebbero essere in un modello lineare omoscedastico con errori normalmente distribuiti. Pertanto, il secondo e il terzo diagramma, che sembrano indicare la dipendenza tra i valori residui e quelli adattati, suggeriscono un modello diverso.

Ma perché la seconda trama suggerisce, come osserva Faraway, un modello lineare eteroscedastico, mentre la terza trama suggerisce un modello non lineare?

La seconda trama sembra indicare che il valore assoluto dei residui è fortemente correlato positivamente con i valori adattati, mentre tale tendenza non è evidente nella terza trama. Quindi, se così fosse, teoricamente parlando, in un modello lineare eteroscedastico con errori normalmente distribuiti

Cor(e,y^)=[1111]

(dove l'espressione a sinistra è la matrice varianza-covarianza tra i residui e i valori adattati) questo spiegherebbe perché la seconda e la terza trama concordano con le interpretazioni di Faraway.

Ma è così? In caso contrario, in quale altro modo le interpretazioni di Faraway della seconda e della terza trama possono essere giustificate? Inoltre, perché la terza trama indica necessariamente non linearità? Non è possibile che sia lineare, ma che gli errori o non siano normalmente distribuiti, oppure che siano normalmente distribuiti, ma non si centrino attorno allo zero?


3
Nessuno dei tre grafici mostra correlazione (almeno non correlazione lineare, che è il significato rilevante di "correlazione" nel senso in cui viene utilizzato nei " residui e i valori adattati non sono correlati ").
Glen_b -Restate Monica

1
@Glen_b: grazie. Ho corretto il paragrafo a cui ti riferivi sostituendo "dipendenza" con "correlazione".
Evan Aad,

Risposte:


46

Di seguito sono riportati i grafici residui con la media approssimativa e la diffusione dei punti (limiti che includono la maggior parte dei valori) per ciascun valore di adattato (e quindi di ) contrassegnato in - a un'approssimazione approssimativa che indica la media condizionale (rossa) e la media condizionale (approssimativamente!) il doppio della deviazione standard condizionale (viola):x±

grafici diagnostici con media approssimativa e diffusione per ciascun valore di misura contrassegnata in

  • Il secondo grafico mostra che il residuo medio non cambia con i valori adattati (e quindi non cambia con ), ma la diffusione dei residui (e quindi della attorno alla linea adattata) aumenta man mano che il valore modifica dei valori adattati (o ). Cioè, la diffusione non è costante. Eteroschedasticità.xyx

  • il terzo diagramma mostra che i residui sono per lo più negativi quando il valore adattato è piccolo, positivo quando il valore adattato è nel mezzo e negativo quando il valore adattato è grande. Cioè, la diffusione è approssimativamente costante, ma la media condizionale non lo è - la linea adattata non descrive il modo in cui si comporta come cambia, poiché la relazione è curva.yx

Non è possibile che sia lineare, ma che gli errori o non siano normalmente distribuiti, oppure che siano normalmente distribuiti, ma non si centrino attorno allo zero?

Non proprio *, in quelle situazioni le trame sembrano diverse dalla terza trama.

(i) Se gli errori fossero normali ma non centrati su zero, ma su , diciamo, l'intercettazione l'errore medio e quindi l'intercetta stimata sarebbe una stima di (sarebbe la sua valore atteso, ma è stimato con errore). Di conseguenza, i tuoi residui avrebbero ancora zero medio condizionale, e quindi la trama sembrerebbe la prima trama sopra.θβ0+θ

(ii) Se gli errori non sono normalmente distribuiti, il modello di punti potrebbe essere più denso in qualche luogo diverso dalla linea centrale (se i dati fossero inclinati), diciamo, ma il residuo medio locale sarebbe comunque vicino a 0.

errori non normali

Qui le linee viola rappresentano ancora un intervallo (molto) all'incirca del 95%, ma non è più simmetrico. (Sto esaminando un paio di problemi per evitare di oscurare il punto di base qui.)

* Non è necessariamente impossibile - se si dispone di un termine di "errore" che in realtà non si comporta come gli errori - dice dove ed sono legati a loro nel modo giusto - si potrebbe essere in grado di produrre modelli di qualcosa come questi. Tuttavia, facciamo ipotesi sul termine dell'errore, ad esempio che non è correlato a , ad esempio, e ha zero media; dovremmo infrangere almeno alcune di quelle ipotesi per farlo. (In molti casi potresti avere motivo di concludere che tali effetti dovrebbero essere assenti o almeno relativamente piccoli.)xyx


1
Fammi vedere se ho capito bene. Omoscedasticità significa che la diffusione degli errori non dipende da x (e quindi non dipende neanche da , poiché è una funzione di )? y^y^x
Evan Aad,

2
L'omoschedasticità significa letteralmente "stessa diffusione". Questa è la varianza (popolazione) della risposta in ogni punto dati dovrebbe essere la stessa. Uno dei modi osservabili in cui potrebbe differire dall'essere uguale è se cambia con la media (stimata per adattamento); un altro modo è se cambia con qualche variabile indipendente (anche se per una semplice regressione c'è presumibilmente solo una variabile indipendente disponibile nella maggior parte dei casi, quindi le due saranno sostanzialmente la stessa cosa). Potresti immaginare una situazione in cui la media cambia con ma la diffusione cambia con , che di per sé non è correlato a . x1x2x1
Glen_b -Restate Monica

1
(ctd) ... sarebbe comunque una violazione di tutte le osservazioni aventi la stessa diffusione. [Ero un po 'lento con la distinzione tra e i valori adattati; Proverò a ripulirlo.]x
Glen_b -Restate Monica

Grazie. La situazione è molto più chiara ora. Pensavo che l'omoscedasticità significasse che la matrice varianza-covarianza dell'errore ha la forma , e quindi, in particolare, se il vettore dell'errore distribuito come per una matrice arbitraria e simmetrica , il modello era eteroscedastico. Ora mi rendo conto che non è così. Ma ora che capisco il significato dell'omoscedasticità, ho un'altra domanda. È possibile dire dal primo diagramma di Faraway che la matrice varianza-covarianza dell'errore ha la forma ? Potrebbe essere una arbitraria ? σ2IN(0,V)Vσ2IV
Evan Aad,

1
(ctd) ... come dovresti essere in grado di vedere dal mio primo commento sotto la mia risposta, in particolare a seguito della frase che inizia "Potresti immaginare ..." - ma praticamente esclude l'eteroschedasticità correlata a la media.
Glen_b -Restate Monica

2

Hai scritto

Il secondo diagramma sembra indicare che il valore assoluto dei residui è fortemente correlato positivamente con i valori adattati,

Non "sembra", lo fa. Ed è questo che significa eteroschedastico.

Quindi dai una matrice di tutti gli 1, che è irrilevante; la correlazione può esistere ed essere inferiore a 1.

Quindi scrivi

Inoltre, perché la terza trama indica necessariamente non linearità? Non è possibile che sia lineare, ma che gli errori o non siano normalmente distribuiti, oppure che siano normalmente distribuiti, ma non si centrino attorno allo zero?

Essi fanno centro circa 0. La metà o giù di lì sono al di sotto 0, la metà sopra. È più difficile dire se sono normalmente distribuiti da questo diagramma, ma un altro diagramma che di solito è raccomandato è un diagramma normale quantile dei residui e che mostrerebbe se sono normali o meno.


Grazie. È possibile che la distribuzione degli errori del primo grafico sia per una matrice simmetrica che non ha la forma ? In tal caso, possiamo ancora utilizzare un diagramma QQ per capire che gli errori si distribuiscono normalmente? N(0,V)Vσ2I
Evan Aad,

1
Una trama normale quantile guarda solo alla normalità. Le prove dell'omoschedasticità nella prima trama sono visive
Peter Flom - Reinstalla Monica

@PeterFlom: scusate il necropost: sono un po 'confuso riguardo alla quantificazione per cui consideriamo l'errore in ogni punto (xi, yi): consideriamo diverse risposte (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) per l'ingresso xi; i = 1,2, ..., n (numero di punti dati) e quindi trovare la media e la varianza per i valori yi_j? Sono solo confuso sul perché in una regressione lineare y = ax + b, x, y, a (o uno multilineare y + a1x1 + a2x2 + ... anxn quindi ai, xi) sono variabili casuali e valori non fissi. Inoltre, facciamo questa analisi per ogni coppia di predittori e ogni coppia (y, x_i) con y il valore indipendente?
gary,

Non capisco di cosa tu sia confuso. C'è un valore previsto di y e un valore effettivo di y per ogni osservazione. Il residuo è la differenza tra loro.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.