Equivalenza tra minimi quadrati e MLE nel modello gaussiano


26

Sono nuovo di Machine Learning e sto cercando di impararlo da solo. Recentemente stavo leggendo alcuni appunti delle lezioni e avevo una domanda di base.

La diapositiva 13 afferma che "La stima del minimo quadrato è la stessa della stima della massima verosimiglianza con un modello gaussiano". Sembra che sia qualcosa di semplice, ma non riesco a vederlo. Qualcuno può spiegare cosa sta succedendo qui? Sono interessato a vedere la matematica.

In seguito cercherò di vedere anche il punto di vista probabilistico della regressione di Ridge e Lazo, quindi se ci sono suggerimenti che mi aiuteranno, anche questo sarà molto apprezzato.


4
La funzione obiettivo nella parte inferiore di p. 13 è solo un multiplo costante ( ) della funzione obiettivo nella parte inferiore di p. 10. Il MLE minimizza il primo mentre il minimo quadrato minimizza il secondo, QED. n
whuber

@whuber: grazie per la risposta. Bene, quello che volevo sapere è come MLE sta facendo la minimizzazione.
Andy,

Intendi la meccanica o concettualmente?
whuber

@whuber: Entrambi! Se potessi vedere quella matematica, anche questo aiuterà.
Andy,

1
Il collegamento è interrotto; la mancanza di un riferimento completo e più contesto per la citazione rende difficile rimuovere semplicemente il riferimento o individuare una fonte alternativa per esso. La diapositiva 13 di questo link è sufficiente? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Restate Monica

Risposte:


29

Nel modello

Y=Xβ+ϵ

dove , il loglikelihood diϵN(0,σ2) per un campione di n soggetti è (fino a una costante additiva)Y|Xn

n2log(σ2)12σ2i=1n(yixiβ)2

visto come una funzione di solo , il massimizzatore è esattamente ciò che minimizzaβ

i=1n(yixiβ)2

questo chiarisce l'equivalenza?


Questo è esattamente ciò che è nelle diapositive a cui si fa riferimento nel PO
whuber

3
Sì, lo vedo, ma in realtà non scrivono la verosimiglianza gaussiana a pagina 13 che, dopo averlo fatto, rende ovvio che il suo argmax è lo stesso dell'argmin dei criteri OLS, quindi ho pensato che fosse un'aggiunta utile.
Macro

buon punto: la diapositiva è un po 'imprecisa con i dettagli.
whuber

7
βL2

1
La costante additiva èn/2 log(2 *pi)
SmallChess il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.