In che modo la regressione lineare utilizza la distribuzione normale?


26

Nella regressione lineare, si presume che ciascun valore previsto sia stato scelto da una normale distribuzione di possibili valori. Vedi sotto.

Ma perché si presume che ciascun valore previsto provenga da una distribuzione normale? In che modo la regressione lineare usa questo presupposto? Cosa succede se i valori possibili non vengono normalmente distribuiti?

inserisci qui la descrizione dell'immagine


2
Solo gli errori seguono una distribuzione normale (il che implica che anche la probabilità condizionale di Y dato X è normale). Ciò è probabilmente tradizionale a causa di ragioni relative al teorema del limite centrale. Ma puoi sostituire il normale con qualsiasi distribuzione di probabilità simmetrica e ottenere le stesse stime dei coefficienti tramite i minimi quadrati. Ciò che differisce tuttavia sarebbe l'errore standard residuo, la bontà di adattamento e il modo in cui si convalidano le ipotesi.
Kian,

4
Le assunzioni normali vengono principalmente in inferenza: verifica delle ipotesi, EC, PI. Se fai ipotesi diverse, queste saranno diverse, almeno in piccoli campioni.
Glen_b

7
Per inciso, per la normale regressione lineare il diagramma dovrebbe tracciare le curve normali in verticale, non in diagonale.
Glen_b

Risposte:


29

La regressione lineare da sola non ha bisogno del normale presupposto (gaussiano), gli stimatori possono essere calcolati (con minimi quadrati lineari) senza alcun bisogno di tale presupposto, e ha perfettamente senso senza di essa.

Ma poi, come statistici, vogliamo comprendere alcune delle proprietà di questo metodo, risposte a domande come: gli stimatori dei minimi quadrati sono ottimali in un certo senso? o possiamo fare di meglio con alcuni stimatori alternativi? Quindi, sotto la normale distribuzione dei termini di errore, possiamo dimostrare che questi stimatori sono, in effetti, ottimali, ad esempio sono "imparziali di minima varianza" o massima probabilità. Nessuna cosa del genere può essere dimostrata senza il normale presupposto.

Inoltre, se vogliamo costruire (e analizzare le proprietà di) intervalli di confidenza o test di ipotesi, utilizziamo il presupposto normale. Ma potremmo invece costruire intervalli di confidenza con altri mezzi, come il bootstrap. Quindi, non usiamo il presupposto normale, ma, purtroppo, senza quello, potrebbe essere che dovremmo usare alcuni stimatori diversi da quelli dei minimi quadrati, forse alcuni stimatori robusti?

In pratica, ovviamente, la distribuzione normale è al massimo una finzione conveniente. Quindi, la domanda davvero importante è: quanto dobbiamo avvicinarci alla normalità per affermare di utilizzare i risultati di cui sopra? Questa è una domanda molto più complicata! I risultati di ottimalità non sono robusti , quindi anche una minima deviazione dalla normalità potrebbe distruggere l'ottimalità. Questo è un argomento a favore di metodi robusti. Per un'altra virata a quella domanda, vedi la mia risposta a Perché dovremmo usare t errori invece di normali errori?

Un'altra domanda rilevante è: perché la normalità dei residui è "quasi per nulla importante" ai fini della stima della linea di regressione?

 EDIT

Questa risposta ha portato a una grande discussione nei commenti, che ha portato di nuovo alla mia nuova domanda: regressione lineare: qualsiasi distribuzione non normale che dà identità di OLS e MLE? che ora ha finalmente ottenuto (tre) risposte, fornendo esempi in cui distribuzioni non normali portano a stimatori dei minimi quadrati.


L'errore dei minimi quadrati equivale a un presupposto normale.
Neil G

4
Non esiste tale contraddizione. Ad esempio, il teorema di Gauss-Markov afferma che i minimi quadrati lineari sono ottimali (nel senso della minima varianza) tra tutti gli stimatori lineari, senza bisogno di ipotesi distributive (a parte la varianza esistente). I minimi quadrati sono una procedura numerica che può essere definita indipendentemente da qualsiasi modello probabilistico! Il modello probabilistico viene quindi utilizzato per analizzare questa procedura da una prospettiva statistica.
kjetil b halvorsen,

2
@NeilG Certamente MLE per il normale è il minimo dei quadrati, ma ciò non implica che i minimi quadrati debbano comportare un'ipotesi di normalità. D'altra parte, grandi deviazioni dalla normalità possono rendere i minimi quadrati una scelta sbagliata (quando tutti gli stimatori lineari sono cattivi).
Glen_b -Restate Monica,

1
@NeilG Quello che ho detto non implica in alcun modo l'equivalenza di LS e la normalità, ma tu dici esplicitamente che sono equivalenti, quindi non penso davvero che le nostre due affermazioni siano nemmeno vicine a quelle tautologiche.
Glen_b -Restate Monica

1
@Neil Puoi mostrare come la tua affermazione implica effettivamente quello che ho detto? Davvero non lo vedo.
Glen_b

3

Questa discussione Che cosa succede se i residui sono normalmente distribuiti, ma non lo è? ha ben affrontato questa domanda.

In breve, per un problema di regressione, supponiamo che la risposta sia normalmente condizionata dal valore di x. Non è necessario che le variabili indipendenti o di risposta siano indipendenti.


1
  1. Ma perché si presume che ciascun valore previsto provenga da una distribuzione normale?

Non c'è una ragione profonda per questo, e tu sei libero di cambiare le ipotesi distributive, passare a GLM o regressione robusta. L'LM (distribuzione normale) è popolare perché è facile da calcolare, abbastanza stabile e i residui sono in pratica spesso più o meno normali.

  1. In che modo la regressione lineare usa questo presupposto?

Come ogni regressione, il modello lineare (= regressione con errore normale) cerca i parametri che ottimizzano la probabilità per la data assunzione distributiva. Vedi qui per un esempio di un calcolo esplicito della probabilità di un modello lineare. Se si prende la probabilità di log di un modello lineare, risulta essere proporzionale alla somma dei quadrati e l'ottimizzazione di ciò può essere calcolata abbastanza convenientemente.

  1. Cosa succede se i valori possibili non vengono normalmente distribuiti?

Se si desidera adattare un modello con diverse distribuzioni, i passi successivi del libro di testo sarebbero modelli lineari generalizzati (GLM), che offrono diverse distribuzioni o modelli lineari generali, che sono ancora normali, ma rilassano l'indipendenza. Molte altre opzioni sono possibili. Se si desidera solo ridurre l'effetto dei valori anomali, si potrebbe ad esempio considerare una regressione robusta.


0

Dopo aver riesaminato nuovamente la domanda, penso che non vi sia motivo di utilizzare la distribuzione normale a meno che non si desideri eseguire una sorta di inferenza sul parametro di regressione. E puoi applicare la regressione lineare e ignorare la distribuzione del termine del rumore.


2
Non ha molto senso per me.
SmallChess,

0

(Xio,yio)y=βX+cβΣio(yio-ΣioβXio-c)2ηio=yio-(βXio+c)βββββ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.