Ipotesi di modelli lineari e cosa fare se i residui non sono normalmente distribuiti


22

Sono un po 'confuso su quali siano i presupposti della regressione lineare.

Finora ho verificato se:

  • tutte le variabili esplicative erano correlate in modo lineare con la variabile di risposta. (Questo era il caso)
  • c'era qualche collinearità tra le variabili esplicative. (c'era poca collinearità).
  • le distanze di Cook dei punti dati del mio modello sono inferiori a 1 (questo è il caso, tutte le distanze sono inferiori a 0,4, quindi nessun punto di influenza).
  • i residui sono normalmente distribuiti. (questo potrebbe non essere il caso)

Ma poi ho letto quanto segue:

le violazioni della normalità spesso sorgono perché (a) le distribuzioni delle variabili dipendenti e / o indipendenti sono esse stesse significativamente non normali e / o (b) l'assunzione di linearità è violata.

Domanda 1 Questo fa sembrare che le variabili indipendenti e dipendenti debbano essere normalmente distribuite, ma per quanto ne so non è così. La mia variabile dipendente e una delle mie variabili indipendenti non sono normalmente distribuite. Dovrebbero essere?

Domanda 2 Il mio diagramma QQnormale dei residui è simile al seguente:

controllo della normalità dei residui

Ciò differisce leggermente da una distribuzione normale e shapiro.testrifiuta anche l'ipotesi nulla che i residui provengano da una distribuzione normale:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

I valori residui vs adattati assomigliano a:

residui vs misura

Cosa posso fare se i miei residui non sono normalmente distribuiti? Significa che il modello lineare è completamente inutile?


3
I residui rispetto al grafico adattato suggeriscono che la variabile dipendente ha un limite inferiore. Questo potrebbe guidare gli schemi che vedi. Questo potrebbe darti indicazioni per modelli alternativi che potresti prendere in considerazione.
Maarten Buis,

Risposte:


25

Prima di tutto, vorrei procurarti una copia di questo articolo classico e accessibile e leggerlo: Anscombe FJ. (1973) Grafici nell'analisi statistica The American Statistician . 27: 17-21.

Alle tue domande:

Risposta 1: Né la variabile dipendente né quella indipendente devono essere normalmente distribuite. In realtà possono avere tutti i tipi di distribuzioni loopy. L'assunzione di normalità applica alla distribuzione degli errori ( YiY^i ).

Risposta 2: In realtà stai chiedendo due ipotesi separate di regressione dei minimi quadrati ordinari:

  1. Uno è il presupposto della linearità . Ciò significa che la relazione tra Y e X è espressa da una linea retta (Destra? Torna direttamente all'algebra: y=a+bx , dovea è l'intercettayb è la pendenza della linea.) Una violazione di questa ipotesi significa semplicemente che la relazione non è ben descritta da una linea retta (es.Y è una funzione sinusoidale diXo una funzione quadratica o anche una linea retta che cambia la pendenza in un determinato punto). Il mio approccio preferito in due fasi per affrontare la non linearità è quello di (1) eseguire un qualche tipo di regressione di livellamento non parametrico per suggerire relazioni funzionali non lineari specifiche tra Y e X (ad esempio, usando LOWESS , o GAM , ecc.), e (2) per specificare una relazione funzionale utilizzando una regressione multipla che includa non linearità in X , (ad es. YX+X2 ) o un modello di regressione per minimi quadrati non lineari che includa non linearità nei parametri di X (ad es. YX+max(Xθ,0) , doveθ rappresenta il punto in cui la linea di regressione diY suX cambia pendenza).

  2. Un altro è l'assunzione di residui normalmente distribuiti. A volte si può validamente cavarsela con residui non normali in un contesto OLS; si veda ad esempio Lumley T, Emerson S. (2002) L'importanza dell'assunzione di normalità in grandi insiemi di dati sulla sanità pubblica . Revisione annuale della sanità pubblica . 23: 151-69. A volte, non si può (di nuovo, vedere l'articolo Anscombe).

Tuttavia, consiglierei di pensare alle ipotesi in OLS non tanto come le proprietà desiderate dei tuoi dati, ma piuttosto come punti di partenza interessanti per descrivere la natura. Dopotutto, la maggior parte di ciò a cui teniamo nel mondo è più interessante dell'intercettazione y e della pendenza. La violazione creativa di ipotesi OLS (con i metodi appropriati) ci consente di porre e rispondere a domande più interessanti.


2
Grazie! Nelle diapositive di alcuni corsi statistici si dice che se le ipotesi falliscono, puoi provare a trasformare Y o trasformare le variabili esplicative. Quando trasformo la Y facendo ad esempio lm (Y ^ 0.3 ~ + X1 + X2 + ...) i miei residui diventano normalmente distribuiti. È una cosa valida da fare?
Stefan,

@Stefan Sì! Trasformare una risposta è spesso una buona cosa da fare log, e semplici trasformazioni di potenza sono comuni.
Gregor --state Monica -

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis: Perché queste pagine dicono che le variabili devono essere normalmente distribuite? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

I tuoi primi problemi sono

  • nonostante le vostre assicurazioni, il diagramma residuo mostra che la risposta attesa condizionata non è lineare nei valori adattati; il modello per la media è sbagliato.

  • non hai una varianza costante. Il modello per la varianza è sbagliato.

non puoi nemmeno valutare la normalità con quei problemi lì.


Ti preghiamo di approfondire come hai concluso sulla linearità guardando i grafici? Capisco che l'assunto di omoschedasticità non è soddisfatto qui.
Dr Nisha Arora,

y^y^=30060<00303060>60questo
Glen_b -Restate Monica

Nella metà centrale, quasi tutti i residui sono negativi, nelle parti esterne quasi tutti i residui sono positivi. Questi non sono l'aspetto dei residui casuali.
Glen_b

Grazie, @Glen_b. Dopo un lungo divario, sto rivisitando i miei concetti, quindi non potrei visualizzarli al primo posto.
Dr Nisha Arora,

Sebbene non ci sia molto da fare qui, mi aspetto che i dati originali non siano negativi e che un modello lineare generalizzato (forse una gamma con log-link) o una trasformazione (probabilmente una trasformazione del log) sia una scelta più adatta .
Glen_b

3

Non direi che il modello lineare sia completamente inutile. Tuttavia, ciò significa che il tuo modello non spiega correttamente / completamente i tuoi dati. C'è una parte in cui devi decidere se il modello è "abbastanza buono" o no.

Per la tua prima domanda, non credo che un modello di regressione lineare presupponga che le tue variabili dipendenti e indipendenti debbano essere normali. Tuttavia, c'è un presupposto sulla normalità dei residui.

Per la tua seconda domanda, puoi considerare due cose diverse:

  1. Controlla diversi tipi di modelli. Un altro modello potrebbe essere meglio per spiegare i tuoi dati (ad esempio, regressione non lineare, ecc.). Dovresti comunque verificare che le ipotesi di questo "nuovo modello" non siano violate.
  2. I tuoi dati potrebbero non contenere abbastanza covariate (variabili dipendenti) per spiegare la risposta (risultato). In questo caso, non puoi fare nient'altro. A volte, possiamo accettare di verificare se i residui seguono una diversa distribuzione (ad es. Distribuzione t) ma non sembra essere il caso per te.

Oltre alla tua domanda, vedo che il tuo QQPlot non è "normalizzato". Di solito è più facile guardare la trama quando i tuoi residui sono standardizzati, vedi stdres .

stdres(lmobject)

Spero che ti aiuti, forse qualcun altro lo spiegherà meglio di me.


0

Oltre alla risposta precedente, vorrei aggiungere alcuni punti per migliorare il tuo modello:

  1. A volte la non normalità dei residui indica la presenza di valori anomali. In questo caso, maneggiare prima gli outlier.

  2. Può essere che alcune trasformazioni risolvano lo scopo.

  3. Inoltre, per gestire la multi-colinearità, puoi fare riferimento a https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution


-1

Per la tua seconda domanda,

Qualcosa che mi è successo in pratica è che stavo adattando troppo la mia risposta con molte variabili indipendenti. Nel modello sovralimentato avevo residui non normali. Anche se, i risultati hanno stabilito che non c'erano prove sufficienti per scartare la possibilità che alcuni coefficienti fossero zero (con valori di p più grattivi di 0,2). Quindi in un secondo modello, scartando le variabili a seguito di una procedura di selezione all'indietro, ho ottenuto i normali residui convalidati sia graficamente con un qqplot sia mediante test di ipotesi con un test di Shapiro-Wilk. Controlla se questo potrebbe essere il tuo caso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.