@NickCox ha fatto un buon lavoro parlando di display dei residui quando si hanno due gruppi. Consentitemi di affrontare alcune delle domande esplicite e delle ipotesi implicite che si celano dietro questo thread.
La domanda si pone: "Come testare le ipotesi di regressione lineare come l'omoscedasticità quando una variabile indipendente è binaria?" Hai un modello di regressione multipla . Un modello di regressione (multipla) presuppone che vi sia un solo termine di errore, che è costante ovunque. Non è terribilmente significativo (e non è necessario) verificare l'eteroscedasticità per ciascun predittore individualmente. Questo è il motivo per cui, quando abbiamo un modello di regressione multipla, diagnostichiamo l'eteroscedasticità da grafici dei residui rispetto ai valori previsti. Probabilmente la trama più utile per questo scopo è una trama in scala (anche chiamata "livello di diffusione"), che è una trama della radice quadrata del valore assoluto dei residui rispetto ai valori previsti. Per vedere esempi,Che cosa significa avere "varianza costante" in un modello di regressione lineare?
Allo stesso modo, non è necessario verificare la normalità dei residui per ciascun predittore. (Onestamente non so nemmeno come funzionerebbe.)
Quello che puoi fare con i grafici dei residui contro i singoli predittori è controllare se il modulo funzionale è specificato correttamente. Ad esempio, se i residui formano una parabola, c'è una certa curvatura nei dati che hai perso. Per vedere un esempio, guarda il secondo diagramma nella risposta di @ Glen_b qui: Verifica della qualità del modello nella regressione lineare . Tuttavia, questi problemi non si applicano con un predittore binario.
Per quello che vale, se hai solo predittori categorici, puoi verificare l'eteroscedasticità. Basta usare il test di Levene. Ne discuto qui: perché il test di Levene sull'uguaglianza delle varianze piuttosto che sul rapporto F? In R usi ? LeveneTest dal pacchetto auto.
Modifica: per illustrare meglio il fatto che guardare un grafico dei residui rispetto a una singola variabile predittore non aiuta quando si dispone di un modello di regressione multipla, considerare questo esempio:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Dal processo di generazione dei dati è possibile notare che non esiste eteroscedasticità. Esaminiamo i grafici rilevanti del modello per vedere se implicano eteroscedasticità problematica:
No, niente di cui preoccuparsi. Tuttavia, diamo un'occhiata al diagramma dei residui rispetto alla singola variabile predittiva binaria per vedere se sembra che ci sia eteroscedasticità lì:
Uh oh, sembra che ci possa essere un problema. Sappiamo dal processo di generazione dei dati che non esiste alcuna eteroscedasticità e che i grafici principali per esplorare questo non ne hanno mostrato nessuno, quindi cosa sta succedendo qui? Forse questi grafici aiuteranno:
x1
e x2
non sono indipendenti l'uno dall'altro. Inoltre, le osservazioni x2 = 1
sono agli estremi. Hanno più leva, quindi i loro residui sono naturalmente più piccoli. Tuttavia, non c'è eteroscedasticità.
Il messaggio da portare a casa: la cosa migliore da fare è diagnosticare l'eteroscedasticità solo dai grafici appropriati (i grafici residui e quelli adattati e il diagramma a livello di diffusione).