Come eseguire analisi residue per predittori binari / dicotomici indipendenti nella regressione lineare?


11

Sto eseguendo la regressione lineare multipla di seguito in R per prevedere i rendimenti sui fondi gestiti.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Qui solo GRI e MBA sono predittori binari / dicotomici; i predittori rimanenti sono continui.

Sto usando questo codice per generare grafici residui per le variabili binarie.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

La mia domanda: so come ispezionare grafici residui per predittori continui, ma come testare ipotesi di regressione lineare come l'omoscedasticità quando una variabile indipendente è binaria?

Diagrammi residui:

Diagramma residuo per GR1 Diagramma residuo per MBA

Risposte:


8

@NickCox ha fatto un buon lavoro parlando di display dei residui quando si hanno due gruppi. Consentitemi di affrontare alcune delle domande esplicite e delle ipotesi implicite che si celano dietro questo thread.

La domanda si pone: "Come testare le ipotesi di regressione lineare come l'omoscedasticità quando una variabile indipendente è binaria?" Hai un modello di regressione multipla . Un modello di regressione (multipla) presuppone che vi sia un solo termine di errore, che è costante ovunque. Non è terribilmente significativo (e non è necessario) verificare l'eteroscedasticità per ciascun predittore individualmente. Questo è il motivo per cui, quando abbiamo un modello di regressione multipla, diagnostichiamo l'eteroscedasticità da grafici dei residui rispetto ai valori previsti. Probabilmente la trama più utile per questo scopo è una trama in scala (anche chiamata "livello di diffusione"), che è una trama della radice quadrata del valore assoluto dei residui rispetto ai valori previsti. Per vedere esempi,Che cosa significa avere "varianza costante" in un modello di regressione lineare?

Allo stesso modo, non è necessario verificare la normalità dei residui per ciascun predittore. (Onestamente non so nemmeno come funzionerebbe.)

Quello che puoi fare con i grafici dei residui contro i singoli predittori è controllare se il modulo funzionale è specificato correttamente. Ad esempio, se i residui formano una parabola, c'è una certa curvatura nei dati che hai perso. Per vedere un esempio, guarda il secondo diagramma nella risposta di @ Glen_b qui: Verifica della qualità del modello nella regressione lineare . Tuttavia, questi problemi non si applicano con un predittore binario.

Per quello che vale, se hai solo predittori categorici, puoi verificare l'eteroscedasticità. Basta usare il test di Levene. Ne discuto qui: perché il test di Levene sull'uguaglianza delle varianze piuttosto che sul rapporto F? In R usi ? LeveneTest dal pacchetto auto.


Modifica: per illustrare meglio il fatto che guardare un grafico dei residui rispetto a una singola variabile predittore non aiuta quando si dispone di un modello di regressione multipla, considerare questo esempio:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Dal processo di generazione dei dati è possibile notare che non esiste eteroscedasticità. Esaminiamo i grafici rilevanti del modello per vedere se implicano eteroscedasticità problematica:

inserisci qui la descrizione dell'immagine

No, niente di cui preoccuparsi. Tuttavia, diamo un'occhiata al diagramma dei residui rispetto alla singola variabile predittiva binaria per vedere se sembra che ci sia eteroscedasticità lì:

inserisci qui la descrizione dell'immagine

Uh oh, sembra che ci possa essere un problema. Sappiamo dal processo di generazione dei dati che non esiste alcuna eteroscedasticità e che i grafici principali per esplorare questo non ne hanno mostrato nessuno, quindi cosa sta succedendo qui? Forse questi grafici aiuteranno:

inserisci qui la descrizione dell'immagine

x1e x2non sono indipendenti l'uno dall'altro. Inoltre, le osservazioni x2 = 1sono agli estremi. Hanno più leva, quindi i loro residui sono naturalmente più piccoli. Tuttavia, non c'è eteroscedasticità.

Il messaggio da portare a casa: la cosa migliore da fare è diagnosticare l'eteroscedasticità solo dai grafici appropriati (i grafici residui e quelli adattati e il diagramma a livello di diffusione).


Grazie! Per la stessa regressione che stavo facendo, ho scoperto che Residual Vs Y era omoscedastico, ma quando ho controllato il mandato Residual Vs (indipendente) era una forma a imbuto. Quindi devo fare qualche trasformazione per correggere questo giusto? Quindi, in questo contesto, volevo solo capire perché hai detto che il controllo della variabile indipendente Vs residua non è necessario?
GeorgeOfTheRF,

@ mrcet007, no non hai bisogno di una trasformazione. Se la res vs montata non mostra eteroscedasticità, stai bene. Forse un'illustrazione ti aiuterà. Ho modificato la mia risposta per aggiungere una dimostrazione.
gung - Ripristina Monica

Puoi controllare questo link people.duke.edu/~rnau/testing.htm . Dice di controllare anche la variabile indipendente Vs residua. Solo condivisione per amor di discussioni. Puoi commentare questo? Quello che stavo pensando era che abbiamo sempre bisogno di controllare sia le V residue previste sia quelle residue rispetto a quelle indipendenti. omoscedasticità (varianza costante) degli errori (a) rispetto al tempo (nel caso dei dati delle serie temporali) (b) rispetto alle previsioni (c) rispetto a qualsiasi variabile indipendente
GeorgeOfTheRF

Il mio commento è che ti ho fornito entrambi i motivi per cui guardi i grafici residui vs previsti per verificare l'eteroscedasticità e ti ho mostrato un esempio di come guardare i grafici residui vs IV può portarti fuori strada. Non so cos'altro c'è da dire.
gung - Ripristina Monica

6

È vero che in questo caso i grafici residui convenzionali sono un lavoro più duro: può essere (molto) più difficile vedere se le distribuzioni sono più o meno le stesse. Ma ci sono alternative facili qui. Stai solo confrontando due distribuzioni e ci sono molti buoni modi per farlo. Alcune possibilità sono grafici quantici affiancati o sovrapposti, istogrammi o grafici a scatola. Il mio pregiudizio è che qui i riquadri disadorno sono spesso usati troppo: di solito sopprimono i dettagli che dovremmo guardare, anche se spesso possiamo respingerli come non importanti. Ma puoi mangiare la tua torta e averla.

Usi R, ma nulla di statistico nella tua domanda è specifico di R. Qui ho usato Stata per una regressione su un singolo predittore binario e poi ho attivato grafici a scatole quantili confrontando i residui per i due livelli del predittore. La conclusione pratica in questo esempio è che le distribuzioni sono più o meno le stesse.

inserisci qui la descrizione dell'immagine

1/43/4

Nota: vedi anche Come presentare un diagramma a scatole con un valore anomalo estremo? incluso l'esempio di @ Glen_b di grafici simili usando R. Questi grafici dovrebbero essere facili in qualsiasi software decente; in caso contrario, il tuo software non è decente.


+1 Bello. Ritieni che esista un ruolo anche per il test delle ipotesi sui residui?
Alexis,

@gung Ho modificato la tua modifica. Evidentemente l'originale non era abbastanza chiaro se lo hai frainteso.
Nick Cox,

2
@Alexis Grazie! Sono contento dell'idea che in questo caso un'ipotesi di uguale scatter sia supportata in modo informale dal grafico. Non sono della scuola di pensiero che ogni piccolo passo in un'analisi deve essere santificato da un valore P. Sfortunatamente, non è mai facile essere sicuri di saltare nel modo giusto, ma in pratica intratterrei anche altri modelli se avessi dei dubbi. Qui l'esempio è solo inventato per la domanda e non fa parte di un'analisi seria.
Nick Cox,

Mi scuso, Nick. Ho frainteso il punto di quella frase. Ho pensato che fosse un refuso. Adesso è più chiaro.
gung - Ripristina Monica

1
@whuber Per me va bene. Alcune persone le trovano confuse, o almeno così mi viene detto.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.