Sono un po 'confuso su quali siano i presupposti della regressione lineare.
Finora ho verificato se:
- tutte le variabili esplicative erano correlate in modo lineare con la variabile di risposta. (Questo era il caso)
- c'era qualche collinearità tra le variabili esplicative. (c'era poca collinearità).
- le distanze di Cook dei punti dati del mio modello sono inferiori a 1 (questo è il caso, tutte le distanze sono inferiori a 0,4, quindi nessun punto di influenza).
- i residui sono normalmente distribuiti. (questo potrebbe non essere il caso)
Ma poi ho letto quanto segue:
le violazioni della normalità spesso sorgono perché (a) le distribuzioni delle variabili dipendenti e / o indipendenti sono esse stesse significativamente non normali e / o (b) l'assunzione di linearità è violata.
Domanda 1 Questo fa sembrare che le variabili indipendenti e dipendenti debbano essere normalmente distribuite, ma per quanto ne so non è così. La mia variabile dipendente e una delle mie variabili indipendenti non sono normalmente distribuite. Dovrebbero essere?
Domanda 2 Il mio diagramma QQnormale dei residui è simile al seguente:
Ciò differisce leggermente da una distribuzione normale e shapiro.test
rifiuta anche l'ipotesi nulla che i residui provengano da una distribuzione normale:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
I valori residui vs adattati assomigliano a:
Cosa posso fare se i miei residui non sono normalmente distribuiti? Significa che il modello lineare è completamente inutile?