Ipotesi di regressione multipla: in che modo il presupposto della normalità è diverso dal presupposto della varianza costante?


20

Ho letto che queste sono le condizioni per l'utilizzo del modello di regressione multipla:

  1. i residui del modello sono quasi normali,
  2. la variabilità dei residui è quasi costante
  3. i residui sono indipendenti e
  4. ogni variabile è linearmente correlata al risultato.

In che modo 1 e 2 sono diversi?

Puoi vederne uno qui a destra:

inserisci qui la descrizione dell'immagine

Quindi il grafico sopra dice che il residuo che è 2 deviazione standard di distanza è 10 di distanza da Y-hat. Ciò significa che i residui seguono una distribuzione normale. Non puoi dedurne 2 da questo? Che la variabilità dei residui è quasi costante?


7
Direi che l' ordine di quelli è sbagliato. In ordine di importanza, direi 4, 3, 2, 1. In questo modo, ogni presupposto aggiuntivo consente di utilizzare il modello per risolvere una serie più ampia di problemi, al contrario dell'ordine nella tua domanda, in cui l'assunto più restrittivo è il primo.
Matthew Drury,

2
Questi presupposti sono richiesti per le statistiche inferenziali. Non vengono fatte ipotesi per ridurre al minimo la somma degli errori al quadrato.
David Lane,

1
Credo di voler dire 1, 3, 2, 4. 1 deve essere soddisfatto almeno approssimativamente affinché il modello sia utile per molto, 3 è necessario affinché il modello sia coerente, ovvero convergere in qualcosa di stabile man mano che si ottengono più dati , 2 è necessario affinché la stima sia efficiente, ovvero non esiste un altro modo migliore per utilizzare i dati per stimare la stessa linea e 4 è necessario, almeno approssimativamente, per eseguire test di ipotesi sui parametri stimati.
Matthew Drury,


2
Si prega di fornire una fonte per il diagramma se non è opera propria.
Nick Cox,

Risposte:


44

1. Distribuzione normale dei residui :

La condizione di normalità entra in gioco quando si tenta di ottenere intervalli di confidenza e / o valori p.

ε|X~N(0,σ2ion) non è una condizione di Gauss Markov .


inserisci qui la descrizione dell'immagine

Questo diagramma tenta di illustrare la distribuzione dei punti nella popolazione in blu (con la linea di regressione della popolazione come una linea ciano solida), sovrapposta a un set di dati campione in grandi punti gialli (con la sua linea di regressione stimata tracciata come una linea gialla tratteggiata). Evidentemente questo è solo per il consumo concettuale, poiché ci sarebbero punti infiniti per ogni valore di ) - quindi si tratta di una discretizzazione iconografica grafica del concetto di regressione come distribuzione continua di valori attorno a una media (corrispondente al valore previsto della variabile "indipendente") ad ogni dato valore del regressore o variabile esplicativa.X=X

Se eseguiamo grafici R diagnostici sui dati simulati di "popolazione" otterremmo ...

inserisci qui la descrizione dell'immagine

La varianza dei residui è costante lungo tutti i valori diX.

La trama tipica sarebbe:

inserisci qui la descrizione dell'immagine


Concettualmente, l'introduzione di più regressori o variabili esplicative non altera l'idea. Trovo il tutorial pratico del pacchetto swirl()estremamente utile per capire come la regressione multipla sia davvero un processo di regressione di variabili dipendenti l'una contro l'altra portando avanti la variazione residua e inspiegabile nel modello; o più semplicemente, una forma vettoriale di semplice regressione lineare :

La tecnica generale è quella di scegliere un regressore e sostituire tutte le altre variabili con i residui delle loro regressioni rispetto a quello.


2. La variabilità dei residui è quasi costante (Homoskedasticity) :

E[εio2|X]=σ2

Il problema con la violazione di questa condizione è:

L'eteroschedasticità ha gravi conseguenze per lo stimatore OLS. Sebbene lo stimatore OLS rimanga imparziale, l'ES stimato è errato. Per questo motivo, non è possibile fare affidamento su intervalli di confidenza e test di ipotesi. Inoltre, lo stimatore OLS non è più BLU.


inserisci qui la descrizione dell'immagine

In questo diagramma la varianza aumenta con i valori del regressore (variabile esplicativa), invece di rimanere costante. In questo caso i residui sono normalmente distribuiti, ma la varianza di questa distribuzione normale cambia (aumenta) con la variabile esplicativa.

Si noti che la linea di regressione "vera" (popolazione) non cambia rispetto alla linea di regressione della popolazione sotto omoschedasticità nel primo diagramma (blu scuro solido), ma è intuitivamente chiaro che le stime saranno più incerte.

I grafici diagnostici sul set di dati sono ...

inserisci qui la descrizione dell'immagine

che corrispondono alla distribuzione "dalla coda pesante" , il che ha senso è che dovremmo telescopizzare tutte le trame gaussiane verticali "affiancate" in una sola, che manterrebbe la sua forma a campana, ma con code molto lunghe.


@Glen_b "... una copertura completa della distinzione tra i due considererebbe anche l'omoschedastic-ma-non-normale."

inserisci qui la descrizione dell'immagine

I residui sono molto inclinati e la varianza aumenta con i valori della variabile esplicativa.

Questi sarebbero i grafici diagnostici ...

inserisci qui la descrizione dell'immagine

corrispondente alla marcata inclinazione a destra.

Per chiudere il ciclo, vedremmo anche l'inclinazione in un modello omoschedastico con distribuzione non gaussiana degli errori:

inserisci qui la descrizione dell'immagine

con grafici diagnostici come ...

inserisci qui la descrizione dell'immagine


2
Grazie mille. Sentivo che era necessario colmare la grossolana discretizzazione della popolazione utilizzata come strumento di visualizzazione. Potrei pubblicare il codice, ma sono titubante poiché c'era un certo grado di matematica creativa :-)
Antoni Parellada,

3
L'illustrazione della distinzione tra errori normali ed errori omoscedastici mostrando una trama che soddisfa entrambi e quindi mostrando normale ma non omoschedastico è eccellente. Immagino che una completa copertura della distinzione tra i due considererebbe anche l'omoschedastic-ma-non-normale. [Non ti suggerisco di aggiungere una simile illustrazione, ma è un utile terzo braccio per le persone da tenere a mente quando
prendono in

7

Non è colpa dell'OP, ma sto iniziando a stancarmi di leggere disinformazione come questa.

Ho letto che queste sono le condizioni per l'utilizzo del modello di regressione multipla:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Il "modello di regressione multipla" è solo un'etichetta che dichiara che una variabile può essere espressa in funzione di altre variabili.

Né il vero termine di errore né i residui del modello devono essere quasi nulla in particolare - se i residui sembrano normali, questo è utile per la successiva inferenza statistica.

La variabilità (varianza) del termine di errore non deve essere quasi costante - in caso contrario, abbiamo un modello con eteroschedasticità che al giorno d'oggi è piuttosto facilmente gestibile.

I residui non sono indipendenti in ogni caso, poiché ognuno è una funzione dell'intero campione. I veri termini di errore non devono essere indipendenti - se non lo sono, abbiamo un modello con autocorrelazione, che, sebbene più difficile dell'eteroschedasticità, può essere trattato fino a un certo punto.

Non è necessario che ogni variabile sia linearmente correlata al risultato. In effetti, la distinzione tra regressione "lineare" e "non lineare" non ha nulla a che fare con la relazione tra le variabili, ma di come i coefficienti sconosciuti entrano nella relazione.

Ciò che si potrebbe dire è che se i primi tre sostengono e il quarto è correttamente affermato, si ottiene il "Modello di regressione lineare normale normale", che è solo una (sebbene storicamente la prima) variante di modelli di regressione multipla.


3
XβXβX

2
E alla domanda manca l'assunto assolutamente fondamentale che l'aspettativa condizionale dei termini di errore sia zero!
Matthew Gunn,

1
@MatthewGunn Bene, ... questo apre una discussione molto ampia su ciò che stiamo facendo con questo modello: se prendiamo il punto di vista "deterministico / ingegneristico", abbiamo bisogno di questo presupposto per garantire che la specificatio sia effettivamente quella deterministica che sta a cuore. Se vogliamo stimare la funzione di aspettativa condizionale rispetto ai regressori specifici , la codnizione viene automaticamente soddisfatta (o almeno la sua forma più debole, ortogonalità).
Alecos Papadopoulos,

1
@AlecosPapadopoulos Sì, in un certo senso, i minimi quadrati ordinari ti danno sempre una stima di qualcosa! Ma potrebbe non essere quello che vuoi. Se l'OP vuole semplicemente una funzione di aspettativa lineare e condizionale rispetto ai regressori specifici, sono d'accordo che la condizione sia automaticamente assunta. Ma se l'OP sta cercando di stimare alcuni parametri, giustificare la condizione di ortogonalità è fondamentale!
Matthew Gunn,

@MatthewGunn In effetti, è certamente così.
Alecos Papadopoulos,

3

Antoni Parellada ha avuto una risposta perfetta con una bella illustrazione grafica.

Voglio solo aggiungere un commento per riassumere la differenza tra due affermazioni

  1. i residui del modello sono quasi normali

  2. la variabilità dei residui è quasi costante

  • L'istruzione 1 indica che la "forma" del residuo è "curva a campana" .
  • L'istruzione 2 raffina la diffusione della "forma" (è costante), nella trama di Antoni Parellada 3. ci sono 3 curve a forma di campana, ma sono diverse.

1

Non esiste un unico insieme unico di ipotesi di regressione, ma esistono diverse varianti. Alcune di queste serie di ipotesi sono più rigorose, cioè più strette, di altre. Inoltre, nella maggior parte dei casi non è necessario e, in molti casi, non si può davvero presumere che la distribuzione sia normale.

I presupposti che hai citato sono più severi di tutti, tuttavia sono formulati in un linguaggio inutilmente sciolto. Ad esempio, che cosa è esattamente quasi ? Inoltre, non sono i residui su cui imponiamo le ipotesi, sono errori . I residui sono stime di errori, che non sono osservabili. Questo mi dice che stai citando da una fonte povera. Buttalo fuori.

La breve risposta alla tua domanda è che se consideri qualsiasi distribuzione, ad es. Distribuzione Student t, per i tuoi errori (userò il termine corretto nella mia risposta) allora puoi vedere come gli errori possono avere una variazione "quasi costante" senza far parte della distribuzione normale e come avere una varianza "quasi costante" non richiede una distribuzione normale. In altre parole, no, non puoi escogitare un'ipotesi da un'altra senza un requisito aggiuntivo.

yio=Xioβ+εioεio~N(0,σ2)
  1. N(.)
  2. σεio
  3. NX
  4. y=Xβ

Quindi quando raggruppiamo tutti i presupposti in questo modo in una o due equazioni, può sembrare che siano tutti dipendenti l'uno dall'altro, il che non è vero. Lo dimostrerò dopo.

Esempio 1

yio=Xioβ+εioεio~tν
ν

Esempio 2

yio=Xioβ+εioεio~N(0,σ2io)
io

1

Ho cercato di aggiungere una nuova dimensione alla discussione e renderla più generale. Per favore, mi scusi se era troppo rudimentale.

Un modello di regressione è un mezzo formale per esprimere i due ingredienti essenziali di una relazione statistica:

  1. YX
  2. Una dispersione di punti attorno alla curva della relazione statistica.

Y

Postulando che:

  1. YX

  2. X

Y

YX

YXYX

Fonte: Modelli statistici lineari applicati, KNNL

YX

Yio=β0 +β1Xio+ε

YioXio

β0β1 sono parametri

εN(O,σ2)

io

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

In che modo 1 e 2 sono diversi?

Venendo alla domanda

Il primo e il secondo presupposto, come affermato da voi, sono due parti della stessa assunzione di normalità con media zero e varianza costante. Penso che la domanda dovrebbe essere posta come quali sono le implicazioni dei due presupposti per un normale modello di regressione dell'errore piuttosto che la differenza tra i due presupposti. Lo dico perché sembra paragonare le mele alle arance perché stai cercando di trovare una differenza tra ipotesi sulla distribuzione di una dispersione di punti e ipotesi sulla sua variabilità. La variabilità è una proprietà di una distribuzione. Quindi cercherò di rispondere a una domanda più pertinente sulle implicazioni delle due ipotesi.

Sotto il presupposto della normalità, gli stimatori della massima verosimiglianza (MLE) sono gli stessi degli stimatori dei minimi quadrati e gli MLE godono della proprietà di essere UMVUE, il che significa che hanno una varianza minima tra tutti gli stimatori.

β0β1t


1
Questo è un eccellente resoconto della regressione. Ma come risponde alla domanda particolare in questo thread?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.