Perché la normalità presuppone una regressione lineare


15

La mia domanda è molto semplice: perché scegliamo normale come distribuzione seguita dal termine di errore nell'ipotesi di regressione lineare? Perché non scegliamo altri come l'uniforme, te altro?


5
Non scegliamo il presupposto normale. Accade semplicemente che, quando l'errore è normale, i coefficienti del modello seguono esattamente una distribuzione normale e un test F esatto può essere utilizzato per verificare le ipotesi su di essi.
AdamO

10
Perché la matematica risolve abbastanza facilmente che le persone potrebbero usarlo prima dei computer moderni.
Nat

1
@AdamO Non capisco; hai appena delineato i motivi per cui lo abbiamo scelto.
JiK

2
@JiK se potessi scegliere le distribuzioni, non ci sarebbe bisogno di statistiche. Il mondo intero sarebbe probabilità.
AdamO

1
@AdamO Puoi scegliere ipotesi per il tuo modello quando fai inferenze statistiche, quindi non penso che ciò significhi che non ci sono statistiche.
JiK

Risposte:


29

Scegliamo altre distribuzioni di errori. In molti casi puoi farlo abbastanza facilmente; se si utilizza la stima della massima verosimiglianza, ciò cambierà la funzione di perdita. Questo è certamente fatto in pratica.

Laplace (doppi errori esponenziali) corrisponde alla regressione minima deviazioni / L1 (di cui discutono numerosi post sul sito). Le regressioni con errori t vengono occasionalmente utilizzate (in alcuni casi perché sono più robuste per errori grossolani), sebbene possano avere uno svantaggio: la probabilità (e quindi il negativo della perdita) può avere più modalità.

Errori uniformi corrispondono a un L perdita (minimizzare la deviazione massima); tale regressione è talvolta chiamata approssimazione di Chebyshev (anche se attenzione, poiché esiste un'altra cosa essenzialmente con lo stesso nome). Ancora una volta, a volte questo viene fatto (in effetti per una semplice regressione e insiemi di dati di piccole dimensioni con errori limitati con diffusione costante l'adattamento è spesso abbastanza facile da trovare a mano, direttamente su un grafico, sebbene in pratica sia possibile utilizzare metodi di programmazione lineari o altri algoritmi ; in effetti, i problemi di regressione L e L1 sono reciproci, il che può portare a scorciatoie a volte convenienti per alcuni problemi).

In effetti, ecco un esempio di un modello di "errore uniforme" montato manualmente sui dati:

Regressione L-infinito montata a mano.  I due punti "più bassi" sotto la striscia di punti dati sono contrassegnati e i due punti "più alti" sopra la striscia di dati sono contrassegnati.

È facile identificare (facendo scorrere una riga verso i dati) che i quattro punti segnati sono gli unici candidati per essere nel set attivo; tre di loro formeranno effettivamente il set attivo (e un piccolo controllo identifica presto quali tre portano alla banda più stretta che comprende tutti i dati). La linea al centro di quella banda (contrassegnata in rosso) è quindi la stima della massima verosimiglianza della linea.

Molte altre scelte di modello sono possibili e molte sono state utilizzate nella pratica.

Si noti che se si hanno errori additivi, indipendenti, a diffusione costante con una densità del modulo kexp(c.g(ε)) , massimizzare la probabilità corrisponderà a minimizzareig(ei) , doveei è l'i esimo residuo.

Tuttavia, ci sono una varietà di ragioni per cui i minimi quadrati sono una scelta popolare, molti dei quali non richiedono alcuna assunzione di normalità.


2
Bella risposta. Ti dispiacerebbe aggiungere alcuni collegamenti che forniscano maggiori dettagli su come queste variazioni vengono utilizzate nella pratica?
aprile

(+1) Ottima risposta. Ti dispiacerebbe condividere il codice R usato per adattare la linea di regressione ? L
COOLSerdash

1
Come ho spiegato nel testo, l'ho montato a mano, in modo molto simile all'approccio che ho descritto. Sebbene possa essere fatto abbastanza facilmente usando il codice, ho letteralmente aperto la trama in MS Paint e identificato i tre punti nel set attivo (unendo due dei quali ha dato la pendenza) - e quindi ho spostato la linea a metà verso il terzo punto (dimezzando la distanza verticale in pixel e spostando la linea di molti pixel) - il punto è dimostrare quanto potrebbe essere semplice. A un bambino potrebbe essere insegnato a farlo.
Glen_b

@Glen_b In effetti, ero un adolescente quando mi è stato insegnato a fare esattamente questo nel laboratorio di fisica delle matricole.
Peter Leopold

9

L'assunzione normale / gaussiana viene spesso utilizzata perché è la scelta più computazionalmente conveniente. Il calcolo della stima della massima verosimiglianza dei coefficienti di regressione è un problema di minimizzazione quadratica, che può essere risolto utilizzando l'algebra lineare pura. Altre scelte di distribuzioni del rumore producono problemi di ottimizzazione più complicati che in genere devono essere risolti numericamente. In particolare, il problema può essere non convesso, con conseguenti ulteriori complicazioni.

La normalità non è necessariamente una buona ipotesi in generale. La distribuzione normale ha code molto leggere e questo rende la stima della regressione abbastanza sensibile agli outlier. Alternative come la distribuzione di Laplace o Student t sono spesso superiori se i dati di misurazione contengono valori anomali.

Vedi il libro fondamentale di Peter Huber Robust Statistics per ulteriori informazioni.


2

Quando si lavora con queste ipotesi, la regressione basata su errori al quadrato e la massima probabilità forniscono la stessa soluzione. Sei anche in grado di ottenere semplici test F per la significatività del coefficiente, nonché intervalli di confidenza per le tue previsioni.

In conclusione, il motivo per cui scegliamo spesso la distribuzione normale sono le sue proprietà, che spesso rendono le cose facili. Inoltre, non è un presupposto molto restrittivo, in quanto molti altri tipi di dati si comporteranno "in genere"

Comunque, come menzionato in una risposta precedente, ci sono possibilità di definire modelli di regressione per altre distribuzioni. Il normale sembra essere il più ricorrente


2

Glen_b ha spiegato bene che la regressione OLS può essere generalizzata (massimizzando la probabilità invece di minimizzare la somma dei quadrati) e lo facciamo scegliere altre distribuzioni.

Tuttavia, perché la distribuzione normale viene scelta così spesso ?

Il motivo è che la distribuzione normale avviene naturalmente in molti luoghi. È un po 'lo stesso come vediamo spesso il rapporto aureo o i numeri di Fibonacci che si verificano "spontaneamente" in vari luoghi della natura.

La distribuzione normale è la distribuzione limitante per una somma di variabili con varianza finita (o sono possibili anche restrizioni meno rigide). E, senza prendere il limite, è anche una buona approssimazione per una somma di un numero finito di variabili. Quindi, poiché molti errori osservati si verificano come somma di molti piccoli errori non osservati, la distribuzione normale è una buona approssimazione.

Vedi anche qui Importanza della distribuzione normale

dove le macchine a chicchi di Galton mostrano il principio in modo intuitivo

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

Perché non scegliamo altre distribuzioni?

yiRxiRnxi

y^i=wxi.

La perdita di sorpresa è di solito la perdita più sensata:

L=logP(yixi).

Puoi pensare alla regressione lineare come all'uso di una densità normale con varianza fissa nell'equazione sopra:

L=logP(yixi)(yiy^i)2.

Questo porta all'aggiornamento del peso:

wL=(y^iyi)xi


In generale, se si utilizza un'altra distribuzione esponenziale della famiglia, questo modello è chiamato modello lineare generalizzato . La diversa distribuzione corrisponde a una diversa densità, ma può essere più facilmente formalizzata modificando la previsione, il peso e l'obiettivo.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk .

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


Per quanto ne so, il log-normalizzatore del gradiente può essere qualsiasi funzione monotonica, analitica, e qualsiasi funzione monotonica, analitica è il log-normalizzatore del gradiente di una famiglia esponenziale.


Questo è molto breve e troppo criptico per i nostri standard, per favore spiega anche sorpresa .
kjetil b halvorsen,

1
"ogni funzione di collegamento corrisponde a una diversa ipotesi distributiva" questo è molto vago. La funzione di collegamento non ha a che fare con la generalizzazione a diversi presupposti distributivi, ma con la generalizzazione della parte (lineare) che descrive la media della distribuzione.
Sesto Empirico

1
L'articolo collegato contiene nella sezione '3.1 Distribuzione normale'> "Più in generale, come mostrato in Nelder (1968), possiamo considerare i modelli in cui c'è una trasformazione linearizzantef e una trasformazione normalizzante g" Non so a cosa si riferisca il tuo normalizzatore log gradiente, e forse stai parlando di questa trasformazione normalizzante? Ma questa non è la funzione di collegamento. La funzione di collegamento in GLM si riferisce alla trasformazione linearizzante.
Sextus Empiricus

1
In genere alcune funzioni di collegamento vengono utilizzate con determinate ipotesi distributive. Ma questa non è una necessità. Quindi i miei presupposti distributivi sono normali in questo esempio, e non Poisson (che era intenzionale). Alcuni esempi migliori (più pratici e noti) sono le variabili distribuite binomiali / Bernouilli in cui le persone lavorano con un modello probit o un modello logit, quindi diverse funzioni di collegamento ma lo stesso presupposto distributivo (condizionale).
Sesto Empirico

1
@Neil G: Sono il pigro? Avresti potuto facilmente includere sorpresa nel post originale, sì? Inoltre, quando faccio tali commenti, è più per il sito che per me stesso. Questo sito dovrebbe essere autonomo. Avrei potuto / indovinato il significato (anche se si tratta di una terminologia non standard in statistica), come puoi vedere dalla mia risposta qui, entropia
kjetil b halvorsen
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.