Vorrei fornire una risposta semplice.
Qual è la differenza principale tra la stima della massima verosimiglianza (MLE) e la stima dei minimi quadrati (LSE)?
Come ha commentato @TrynnaDoStat, minimizzare l'errore al quadrato equivale a massimizzare la probabilità in questo caso. Come detto in Wikipedia ,
In un modello lineare, se gli errori appartengono a una distribuzione normale, gli stimatori dei minimi quadrati sono anche gli stimatori della massima verosimiglianza.
possono essere visualizzati come gli stessi nel tuo caso,
Lasciami dettagliare un po '. Poiché sappiamo che la variabile di risposta ( )
ha un normale modello di distribuzione degli errori,
la funzione di probabilità è,
Ovviamente massimizzare L equivale a minimizzare
Questo è il metodo dei minimi quadrati.yYi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
∑i=1n(Yi−λ1Xi−λ2)2
Perché non possiamo usare MLE per predire i valori nella regressione lineare e viceversa? y
Come spiegato sopra stiamo effettivamente (in modo più precisamente equivalente) usando l'MLE per prevedere i valori . E se la variabile di risposta ha distribuzioni arbitrarie piuttosto che una distribuzione normale, come la distribuzione di Bernoulli o una qualsiasi della famiglia esponenziale , mappiamo il predittore lineare alla distribuzione della variabile di risposta usando una funzione di collegamento (secondo la distribuzione di risposta), quindi la funzione di probabilità diventa il prodotto di tutti i risultati (probabilità tra 0 e 1) dopo la trasformazione. Possiamo considerare la funzione di collegamento nel regresso lineare come la funzione di identità (poiché la risposta è già una probabilità).y