Relazione tra MLE e minimi quadrati in caso di regressione lineare


9

Hastie e Tibshirani menzionano nella sezione 4.3.2 del loro libro che nell'impostazione della regressione lineare, l'approccio dei minimi quadrati è in realtà un caso speciale di massima probabilità. Come possiamo dimostrare questo risultato?

PS: non risparmia dettagli matematici.


2
Non è un caso speciale: sono identici quando la distribuzione dell'errore è normale.
Zhanxiong,

Risposte:


13

Il modello di regressione lineare

, dove ϵ N ( 0 , I σ 2 )Y=Xβ+ϵϵN(0,Iσ2)

, X R n × p e β R pYRnXRn×pβRp

Nota che il nostro errore del modello (residuo) è . Il nostro obiettivo è trovare un vettore di β che minimizzi la norma L 2 al quadrato di questo errore.ε=Y-XββL2

Minimi quadrati

Dati riportati dove ogni x i è p dimensionale, cerchiamo di trovare:(X1,y1),...,(Xn,yn)Xiop

β^LS=argminβ||ε||2=argminβ||Y-Xβ||2=argminβΣio=1n(yio-Xioβ)2

Probabilità massima

Utilizzando il modello sopra, possiamo impostare la probabilità dei dati dati i parametri come:β

L(Y|X,β)=Πio=1nf(yio|Xio,β)

dove è il pdf di una distribuzione normale con media 0 e varianza σ 2 . Collegandolo:f(yio|Xio,β)σ2

L(Y|X,β)=Πio=1n12πσ2e-(yio-Xioβ)22σ2

Ora, generalmente, quando si ha a che fare con le probabilità è matematicamente più facile prendere il registro prima di continuare (i prodotti diventano somme, gli esponenziali vanno via), quindi facciamolo.

logL(Y|X,β)=Σio=1nlog(12πσ2)-(yio-Xioβ)22σ2

Poiché vogliamo la stima della massima verosimiglianza, vogliamo trovare il massimo dell'equazione sopra, rispetto a . Il primo termine non influisce sulla nostra stima di β , quindi possiamo ignorarlo:ββ

β^MLE=argmaxβΣio=1n-(yio-Xioβ)22σ2

Si noti che il denominatore è una costante rispetto a . Infine, nota che c'è un segno negativo davanti alla somma. Quindi trovare il massimo di un numero negativo è come trovarne il minimo senza il negativo. In altre parole:β

β^MLE=argminβΣio=1n(yio-Xioβ)2=β^LS

Ricordiamo che per far funzionare tutto ciò, abbiamo dovuto formulare alcune ipotesi di modello (normalità dei termini di errore, media 0, varianza costante). Ciò rende i minimi quadrati equivalenti a MLE in determinate condizioni. Vedi qui e qui per ulteriori discussioni.

Per completezza, si noti che la soluzione può essere scritta come:

β=(XTX)-1XTy
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.