Linee rette diagonali nei grafici dei valori residui e adattati per regressione multipla


11

Sto osservando strani schemi nei residui per i miei dati: inserisci qui la descrizione dell'immagine

[EDIT] Ecco i grafici di regressione parziale per le due variabili:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Aggiunto il grafico PP http://i.imgur.com/pCKFA.png

La distribuzione sembra andare bene (vedi sotto) ma non ho idea di da dove possa venire questa retta. Qualche idea? inserisci qui la descrizione dell'immagine

[AGGIORNAMENTO 31.07]

Si scopre che avevi assolutamente ragione, ho avuto casi in cui il conteggio dei retweet era effettivamente 0 e questi ~ 15 casi hanno prodotto quegli strani schemi residui.

I residui sembrano molto meglio ora: http://i.imgur.com/XGas9.png

Ho anche incluso le regressioni parziali con una linea di loess. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


Potresti aggiungere anche la linea adattata tracciata sui dati originali?
Martedì

Inoltre, i sottotitoli delle figure dicono "community: anime" e "community: astrology", il che sembra implicare che queste trame provengano da set di dati diversi ...
MånsT

Ricordo di aver visto questo tipo di schemi nei miei residui quando le mie variabili dipendenti sono categoriche o 'non abbastanza continue'.
Re

Ho aggiunto la trama PP corretta e le trame parziali dei due IV
plotti il

Risposte:


23

Sembra che su alcuni dei suoi sotto-intervalli la tua variabile dipendente sia costante o sia linearmente dipendente dal / i predittore / i. Diamo due variabili correlate, X e Y (Y dipende). Il diagramma a dispersione è sulla sinistra.

inserisci qui la descrizione dell'immagine

Torniamo, ad esempio, alla prima ("costante") possibilità. Ricodifica tutti i valori Y dal più basso a -0,5 a un singolo valore -1 (vedi immagine al centro). Registra Y su X e traccia la dispersione dei residui, ovvero ruota l'immagine centrale in modo che la linea di predizione sia ora orizzontale. Assomiglia alla tua foto?


6
Questa è la statistica forense al suo meglio! Un grande +1.
Michael R. Chernick,

Si scopre che avevi assolutamente ragione, ho avuto casi in cui il conteggio dei retweet era effettivamente 0 e questi ~ 15 casi hanno prodotto quegli strani schemi residui. i.imgur.com/XGas9.png
plotti

4

Non sorprende che non si veda il modello nell'istogramma, il modello dispari copre un po 'la gamma dell'istogramma e rappresenta solo alcuni punti di dati in ogni bin. Hai davvero bisogno di scoprire quali punti di dati sono e guardarli. È possibile utilizzare i valori previsti e i residui per trovarli abbastanza facilmente. Una volta individuati i valori, inizia a studiare perché potrebbero essere speciali.

Detto questo, questo particolare schema è speciale solo perché è lungo. Se osservi attentamente la trama dei residui e la trama quantile, vedrai che si ripete ma che sono sequenze più piccole. Forse è davvero solo un'anomalia. O forse è davvero uno schema che si ripete. Ma dovrai trovare dove si trovano i dati grezzi ed esaminarli per avere qualche speranza di capirli affatto.

Per darti un po 'di aiuto, il diagramma quantile-quantile suggerisce che hai un mucchio di residui identici. È possibile che si tratti di un errore di codifica. Posso generare qualcosa di simile in R con ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Nota i due punti piatti nella linea. Tuttavia, sembra più complesso di così perché c'è un'implicazione che i identici residui si imbattono in una serie di predittori.


3

Sembra che tu stia usando R. In tal caso, notare che è possibile identificare i punti su un diagramma a dispersione usando ? Identifica . Penso che ci siano diverse cose che stanno succedendo qui. Innanzitutto, hai un punto molto influente sulla trama di LN_RT_vol_in ~ LN_AT_vol_in(quella evidenziata) a circa (.2, 1.5). È molto probabile che questo sia il residuo standardizzato che è circa -3,7. L'effetto di quel punto sarà di appiattire la linea di regressione, inclinandola più in orizzontale rispetto alla linea fortemente ascendente che altrimenti avresti ottenuto. Un effetto di ciò è che tutti i tuoi residui saranno ruotati in senso antiorario rispetto a dove altrimenti sarebbero stati collocati all'interno della residual ~ predictedtrama (almeno quando si pensa in termini di quella covariata e si ignora l'altro).

Tuttavia, l'apparente linea retta di residui che vedi sarebbe ancora lì, poiché esistono da qualche parte nella nuvola tridimensionale dei tuoi dati originali. Possono essere difficili da trovare in uno dei diagrammi marginali. È possibile utilizzare la funzione identifica () per aiutare, nonché utilizzare il pacchetto rgl per creare un grafico a dispersione 3D dinamico che è possibile ruotare liberamente con il mouse. Tuttavia, si noti che i residui della retta sono tutti al di sotto di 0 nel loro valore previsto e hanno al di sotto di 0 i residui (cioè, sono al di sotto della linea di regressione adattata); che ti dà un grande suggerimento su dove cercare. Guardando di nuovo la trama diLN_RT_vol_in ~ LN_AT_vol_in, Penso di poterli vedere. C'è un gruppo abbastanza dritto di punti che scorrono diagonalmente verso il basso e verso sinistra da circa (-,01, -1,00) sul bordo inferiore della nuvola di punti in quella regione. Sospetto che questi siano i punti in questione.

In altre parole, i residui sembrano così perché sono già in qualche modo all'interno dello spazio dati. In sostanza, questo è ciò che suggerisce @ttnphns, ma non penso che sia abbastanza costante in nessuna delle dimensioni originali: è una costante in una dimensione inclinata rispetto agli assi originali. Concordo inoltre con @MichaelChernick che questa apparente rettitudine nella trama residua è probabilmente innocua, ma che i tuoi dati non sono molto normali. Sono un po 'normali, tuttavia, e sembra che tu abbia un numero decente di dati, quindi il CLT potrebbe coprirti, ma potresti voler avviare bootstrap per ogni evenienza. Infine, mi preoccuperei che quel "valore anomalo" stia guidando i tuoi risultati; è probabilmente meritato un approccio solido .


1
Questa tua affermazione può it's a constant in a dimension at an angle to your original axesessere paragonabile alla mia is exactly linearly dependent on the predictor(s)o intendi qualcosa di diverso?
ttnphns,

@ttnphns, ho perso quella parte della tua risposta quando l'ho sfogliata; Ho visto la "costante" e ho visto i punti nella tua trama, ed è quello che ho portato via. Sì, "è una costante in una dimensione ..." è logicamente sinonimo di "è esattamente linearmente dipendente ...". Ora mi rendo conto che il mio punto centrale è in gran parte uguale al tuo (+1), anche se penso che alcuni dei miei altri punti (riguardo a quali dati sono probabilmente il colpevole, strategie di R, approcci solidi, ecc.) Contribuiscono ancora alla discussione.
gung - Ripristina Monica

Certo, la tua risposta ha contribuito molto, per me.
ttnphns,

1

Non direi necessariamente che l'istogramma va bene. Sovrapporre visivamente il normale più adatto su un istogramma può essere ingannevole e l'istogramma potrebbe essere sensibile alla scelta della larghezza del cestino. Il diagramma della probabilità normale sembra indicare una grande deviazione dal normale e anche guardando l'istogramma sembra che al mio occhio ci sia una leggera asimmetria (frequenza più alta nel cestino [0, + 0,5] rispetto al cestino [-0.5,0]) e grave curtosi (una frequenza troppo grande negli intervalli [-4, -3,5] e [2,5, 3]).

Per quanto riguarda lo schema che vedi, potrebbe provenire dall'esplorazione selettiva attraverso il grafico a dispersione. Sembra che se cerchi ancora un po 'puoi trovare altre due o tre linee quasi parallele a quella che hai scelto. Penso che stai leggendo troppo in questo. Ma la non anomalia è una vera preoccupazione. Hai un valore anomalo molto grande con un residuo di quasi -4. Questi residui provengono da un minimo di quadrati? Concordo sul fatto che potrebbe essere illuminante guardare la linea adattata su un diagramma a dispersione dei dati.


Ho aggiunto i grafici parziali dei due IV per far luce su questo
plotti

1
Vorrei vedere la cosa più semplice, la linea adattata che scorre attraverso un diagramma a dispersione dei dati.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.