Perché i metodi di regressione Least-Squares e Maximum-Likelihood non sono equivalenti quando gli errori non sono normalmente distribuiti?


11

Il titolo dice tutto. Comprendo che i minimi quadrati e la massima verosimiglianza daranno lo stesso risultato per i coefficienti di regressione se gli errori del modello sono normalmente distribuiti. Ma cosa succede se gli errori non vengono normalmente distribuiti? Perché i due metodi non sono più equivalenti?


Intendi (a) usare la MLE quando non si verifica l'assunzione della normalità, oppure (b) usare la funzione di verosimiglianza non gaussiana?
Tim

(a), quando l'assunzione della normalità non è soddisfatta
Shuklaswag,

Anche quando l'assunzione non è soddisfatta (ovvero i valori osservati non sono distribuiti gaussiani) ... se si calcola l'MLE con l'uso della funzione di verosimiglianza gaussiana, si fa lo stesso dell'ottimizzazione dei minimi quadrati. I metodi di ottimizzazione sono matematicamente equivalenti e indipendenti dal fatto che il presupposto della normalità fosse giusto o meno.
Sesto Empirico

Anche con distribuzioni normali, i minimi quadrati impongono una varianza fissa.
Codici InCos

Risposte:


16

Risposta breve

La densità di probabilità di una variabile distribuita gaussiana multivariata , con media è correlata al quadrato dell'euclideo distanza tra la media e la variabile ( ), ovvero la somma dei quadrati.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Risposta lunga

Se moltiplichi più distribuzioni gaussiane per i tuoi errori, dove assumi deviazioni uguali, otterrai una somma di quadrati.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

o nella comoda forma logaritmica:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Quindi l'ottimizzazione di per minimizzare la somma dei quadrati equivale a massimizzare la probabilità (log) (cioè il prodotto di più distribuzioni gaussiane o la distribuzione gaussiana multivariata).μ

È questo quadrato nidificato della differenza all'interno della struttura esponenziale, , che altre distribuzioni non hanno.(μx)exp[(xiμ)2]


Confronta ad esempio con il caso delle distribuzioni di Poisson

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

che ha un massimo quando viene minimizzato quanto segue:

μjlog(μj)xij

che è una bestia diversa.


Inoltre (storia)

La storia della distribuzione normale (ignorando deMoivre che arriva a questa distribuzione come approssimazione per la distribuzione binomiale) è in realtà la scoperta della distribuzione che rende l'MLE corrispondente al metodo dei minimi quadrati (piuttosto che il metodo dei minimi quadrati è un metodo che può esprimere l'MLE della distribuzione normale, prima è arrivato il metodo dei minimi quadrati, poi è arrivata la distribuzione gaussiana)

Si noti che Gauss, collegando il "metodo della massima verosimiglianza" con il "metodo dei minimi quadrati", ha creato la "distribuzione gaussiana", , come unica distribuzione di errori che ci porta a effettuare questa connessione tra i due metodi.ex2

Dalla traduzione di Charles Henry Davis (Teoria del movimento dei corpi celesti che si muovono attorno al sole in sezioni coniche. Una traduzione del "Theoria motus" di Gauss, con un'appendice) ...

Gauss definisce:

Di conseguenza, la probabilità da assegnare a ciascun errore sarà espressa da una funzione di che indicheremo con .ΔΔψΔ

(Italizzazione fatta da me)

E continua ( nella sezione 177 pp. 258 ):

... da cui si deduce facilmente che deve essere una quantità costante. che indicheremo con . Quindi abbiamo indica la base dei logaritmi iperbolici per e assumendoψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

finendo (dopo la normalizzazione e realizzando ) ink<0

ψΔ=hπehhΔΔ


Scritto da StackExchangeStrike


Ricordi da dove hai preso questa conoscenza? Ti dispiacerebbe aggiungere la fonte al tuo post? (Sto facendo fatica a trovare un libro di testo che lo spieghi bene.)
Joooeey,

@Joooeey Ho aggiunto il titolo della fonte per le citazioni tradotte di Gauss e un link a una delle molte fonti online. Questo testo originale è pesante, ma dovresti trovare trattati più leggeri in qualsiasi descrizione della storia della distribuzione normale.
Sisto Empirico

Le funzioni di probabilità stanno spuntando in molti posti. Se cerchi fonti in cui ho acquisito questa "conoscenza", immagino di poter dire l'articolo del 1900 di Pearson sul test chi-quadrato in cui la distribuzione normale multivariata viene trattata geometricamente. Inoltre, Fisher ha usato più volte rappresentazioni geometriche (ad esempio questo articolo degli anni '20, sull'efficienza delle stime, in cui confronta l'errore quadratico medio e l'errore assoluto medio e dove parla di superfici in un iperspazio).
Sesto Empirico

@Joooeey Ho già fatto riferimento a quell'articolo di Fisher qui . E la mia risposta qui usa un punto di vista geometrico per ricavare una proprietà della distribuzione t anche per Fisher (credo l'articolo in cui dimostra la distribuzione t di Gosset o forse un articolo leggermente più avanti).
Sisto Empirico

5

Perché l'MLE deriva dall'assunzione di residui normalmente distribuiti.

Nota che

minβ  Xβy2

Non ha significato probabilistico : basta trovare la che minimizza la funzione di perdita al quadrato. Tutto è deterministico e non contiene componenti casuali.β

Da dove viene il concetto di probabilità e probabilità, è supponiamo

y=Xβ+ϵ

Dove stiamo considerando come una variabile casuale e è normalmente distribuito.ϵyϵ


@Matthew Drury perché cambiare la notazione della matrice e aggiungere il segno di somma?
Haitao Du,

Ho pensato che sarebbe stato chiaro, ma se affermi che un'affermazione non ha un significato probalistico, non puoi usare un'espressione con simboli che sono meglio interpretati come variabili casuali. Il problema di ottimizzazione a cui stai facendo riferimento è in relazione ai dati fissi, l'ho reso esplicito.
Matthew Drury,

5

I minimi quadrati e la massima probabilità di adattamento (gaussiano) sono sempre equivalenti. Cioè, sono minimizzati dallo stesso insieme di coefficienti.

La modifica dell'assunzione degli errori modifica la funzione di probabilità (massimizzare la probabilità di un modello equivale a massimizzare la probabilità del termine di errore), e quindi la funzione non sarà più minimizzata dallo stesso insieme di coefficienti.

Quindi in pratica i due sono gli stessi, ma in teoria, quando massimizzi una probabilità diversa, otterrai una risposta diversa rispetto ai minimi quadrati


"o sempre equivalente"?
nbro,

0

Un esempio concreto: supponiamo di prendere una semplice funzione di errore p (1) =. 9, p (-9) = .10. Se prendiamo due punti, allora LS sta andando a prendere la linea attraverso di loro. ML, d'altra parte, supporrà che entrambi i punti siano un'unità troppo alta e quindi prenderà la linea attraverso i punti spostati verso il basso sull'unità.


2
Il tuo esempio non è chiaro; in particolare, è difficile vedere quale modello stai cercando di descrivere o perché ML produrrebbe il risultato che rivendichi. Potresti approfondire ulteriormente in questa risposta?
whuber

Il modello è che y = mx + b + error, dove error ha il 90% di probabilità di essere +1 e il 10% di essere -9. Dato qualsiasi punto osservato, il punto reale ha una probabilità del 90% di essere un'unità inferiore e una probabilità del 10% di essere nove unità sopra. Pertanto, ML indica che il punto vero è un'unità di seguito. Cosa non capisci al riguardo?
Accumulo

2
Il tuo commento è utile, ma la tua risposta non descrive ancora il modello in modo chiaro o comprensibile. Potresti incorporare questa spiegazione nella risposta stessa? È un bell'esempio.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.