Il modello di regressione lineare
, dove ϵ ∼ N ( 0 , I σ 2 )Y= Xβ+ ϵϵ ∼ N( 0 , Iσ2)
, X ∈ R n × p e β ∈ R pY∈ RnX∈ Rn × pβ∈ Rp
Nota che il nostro errore del modello (residuo) è . Il nostro obiettivo è trovare un vettore di β che minimizzi la norma L 2 al quadrato di questo errore.ϵ = Y - X ββL2
Minimi quadrati
Dati riportati dove ogni x i è p dimensionale, cerchiamo di trovare:( x1, y1) , . . . , ( xn, yn)Xiop
βˆL S= argminβ| | ϵ | |2= argminβ| | Y - X β| |2= argminβΣi = 1n( yio- xioβ)2
Probabilità massima
Utilizzando il modello sopra, possiamo impostare la probabilità dei dati dati i parametri come:β
L ( Y| X, β) = ∏i = 1nf( yio| Xio, β)
dove è il pdf di una distribuzione normale con media 0 e varianza σ 2 . Collegandolo:f( yio| Xio, β)σ2
L ( Y| X, β) = ∏i = 1n12 πσ2----√e- ( yio- xioβ)22 σ2
Ora, generalmente, quando si ha a che fare con le probabilità è matematicamente più facile prendere il registro prima di continuare (i prodotti diventano somme, gli esponenziali vanno via), quindi facciamolo.
logL ( Y| X, β) = ∑i = 1nlog( 12 πσ2----√) - ( yio- xioβ)22 σ2
Poiché vogliamo la stima della massima verosimiglianza, vogliamo trovare il massimo dell'equazione sopra, rispetto a . Il primo termine non influisce sulla nostra stima di β , quindi possiamo ignorarlo:ββ
βˆML E= argmaxβΣi = 1n- ( yio- xioβ)22 σ2
Si noti che il denominatore è una costante rispetto a . Infine, nota che c'è un segno negativo davanti alla somma. Quindi trovare il massimo di un numero negativo è come trovarne il minimo senza il negativo. In altre parole:β
βˆML E= argminβΣi = 1n( yio- xioβ)2= βˆL S
Ricordiamo che per far funzionare tutto ciò, abbiamo dovuto formulare alcune ipotesi di modello (normalità dei termini di errore, media 0, varianza costante). Ciò rende i minimi quadrati equivalenti a MLE in determinate condizioni. Vedi qui e qui per ulteriori discussioni.
Per completezza, si noti che la soluzione può essere scritta come:
β= ( XTX )- 1XTy