Metodo della massima verosimiglianza vs. metodo dei minimi quadrati


42

Qual è la differenza principale tra la stima della massima verosimiglianza (MLE) rispetto alla stima dei minimi quadrati (LSE)?

Perché non possiamo usare MLE per predire i valori nella regressione lineare e viceversa?y

Qualsiasi aiuto su questo argomento sarà molto apprezzato.


8
Se lo desideri, puoi utilizzare MLE in regressione lineare. Questo può anche avere senso se la distribuzione dell'errore non è normale e il tuo obiettivo è ottenere la stima "più probabile" anziché una che minimizzi la somma dei quadrati.
Richard Hardy,

16
Nell'ipotesi di errore normale, come è generalmente ipotizzato nella regressione lineare, l'MLE e l'LSE sono uguali!
TrynnaDoStat,

1
Cerca nel nostro sito il teorema di Gauss-Markov .
whuber

Grazie per tutte le risposte. Questo ha senso. Durante la ricerca di questo argomento in rete, mi sono imbattuto in questo articolo. Forse questo aiuta anche: radfordneal.wordpress.com/2008/08/09/…
evros,

1
Una risposta è disponibile anche su stats.stackexchange.com/questions/12562/… .
whuber

Risposte:


19

Vorrei fornire una risposta semplice.

Qual è la differenza principale tra la stima della massima verosimiglianza (MLE) e la stima dei minimi quadrati (LSE)?

Come ha commentato @TrynnaDoStat, minimizzare l'errore al quadrato equivale a massimizzare la probabilità in questo caso. Come detto in Wikipedia ,

In un modello lineare, se gli errori appartengono a una distribuzione normale, gli stimatori dei minimi quadrati sono anche gli stimatori della massima verosimiglianza.

possono essere visualizzati come gli stessi nel tuo caso,

Lasciami dettagliare un po '. Poiché sappiamo che la variabile di risposta ( ) ha un normale modello di distribuzione degli errori, la funzione di probabilità è, Ovviamente massimizzare L equivale a minimizzare Questo è il metodo dei minimi quadrati.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

inserisci qui la descrizione dell'immagine
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Perché non possiamo usare MLE per predire i valori nella regressione lineare e viceversa? y

Come spiegato sopra stiamo effettivamente (in modo più precisamente equivalente) usando l'MLE per prevedere i valori . E se la variabile di risposta ha distribuzioni arbitrarie piuttosto che una distribuzione normale, come la distribuzione di Bernoulli o una qualsiasi della famiglia esponenziale , mappiamo il predittore lineare alla distribuzione della variabile di risposta usando una funzione di collegamento (secondo la distribuzione di risposta), quindi la funzione di probabilità diventa il prodotto di tutti i risultati (probabilità tra 0 e 1) dopo la trasformazione. Possiamo considerare la funzione di collegamento nel regresso lineare come la funzione di identità (poiché la risposta è già una probabilità).y


3
Potresti voler definire "questo caso" un po 'più chiaramente poiché in generale, la massima probabilità e i minimi quadrati non sono la stessa cosa.
Matthew Gunn,

2
@MatthewGunn Sì, ho usato "equivalente a" diverso da "lo stesso".
Lerner Zhang,

Sarebbe bello se ci dessi un esempio in cui il modello lineare segue una distribuzione non normale dell'errore e come usi MLE in tal caso per stimare i migliori coefficienti. Se non è possibile, almeno puoi indicarci una fonte corretta, che lo dimostra usando modelli lineari come la regressione di Poisson
VM_AI

12

ML è un insieme più elevato di stimatori che include le deviazioni minime assolute ( -Norm) e i minimi quadrati ( -Norm). Sotto la copertura di ML gli stimatori condividono una vasta gamma di proprietà comuni come il punto di rottura (purtroppo) inesistente. In effetti è possibile utilizzare l'approccio ML come sostituto per ottimizzare molte cose, incluso OLS, purché si sia consapevoli di ciò che si sta facendo.L1L2

L2 -Norm risale a CF Gauss ed ha circa 200 anni, mentre il moderno approccio ML risale al (IMHO) Huber 1964. Molti scienziati sono abituati a -Norms e alle loro equazioni. La teoria è ben compresa e ci sono molti articoli pubblicati che possono essere visti come utili estensioni come:L2

  • snooping dei dati
  • parametri stocastici
  • vincoli deboli

Le applicazioni professionali non si adattano solo ai dati, ma controllano:

  • se il parametro è significativo
  • se il set di dati ha valori anomali
  • quale valore anomalo può essere tollerato poiché non compromette le prestazioni
  • quale misura dovrebbe essere rimossa poiché non contribuisce al grado di libertà

Inoltre, esiste un numero enorme di test statistici specializzati per ipotesi. Ciò non è necessario per tutti gli stimatori ML o deve essere indicato almeno con una prova.

Un altro punto profano è che -Norm è molto facile da implementare, può essere esteso alla regolarizzazione bayesiana o ad altri algoritmi come Levenberg-Marquard.L2

Da non dimenticare: prestazioni. Non tutti i casi minimi come Gauss-Markov producono equazioni normali definite simmetriche positive . Quindi uso librerie separate per ogni -Norm. È possibile eseguire ottimizzazioni speciali per questo determinato caso.Xβ=L+r(XTX)1L2

Sentiti libero di chiedere i dettagli.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.