Risposta breve
La densità di probabilità di una variabile distribuita gaussiana multivariata , con media è correlata al quadrato dell'euclideo distanza tra la media e la variabile ( ), ovvero la somma dei quadrati.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μ−x|22
Risposta lunga
Se moltiplichi più distribuzioni gaussiane per i tuoi errori, dove assumi deviazioni uguali, otterrai una somma di quadrati.n
L(μj,xij)=P(xij|μj)=∏ni=112πσ2√exp[−(xij−μi)22σ2]=(12πσ2√)nexp[−∑ni=1(xij−μi)22σ2]
o nella comoda forma logaritmica:
log(L(μj,xij))=nlog(12πσ2−−−−√)−12σ2∑i=1n(xij−μj)2
Quindi l'ottimizzazione di per minimizzare la somma dei quadrati equivale a massimizzare la probabilità (log) (cioè il prodotto di più distribuzioni gaussiane o la distribuzione gaussiana multivariata).μ
È questo quadrato nidificato della differenza all'interno della struttura esponenziale, , che altre distribuzioni non hanno.(μ−x)exp[(xi−μ)2]
Confronta ad esempio con il caso delle distribuzioni di Poisson
log(L)=log(∏μxijjxij!exp[−μj])=−∑μj−∑log(xij!)+∑log(μj)xij
che ha un massimo quando viene minimizzato quanto segue:
∑μj−log(μj)xij
che è una bestia diversa.
Inoltre (storia)
La storia della distribuzione normale (ignorando deMoivre che arriva a questa distribuzione come approssimazione per la distribuzione binomiale) è in realtà la scoperta della distribuzione che rende l'MLE corrispondente al metodo dei minimi quadrati (piuttosto che il metodo dei minimi quadrati è un metodo che può esprimere l'MLE della distribuzione normale, prima è arrivato il metodo dei minimi quadrati, poi è arrivata la distribuzione gaussiana)
Si noti che Gauss, collegando il "metodo della massima verosimiglianza" con il "metodo dei minimi quadrati", ha creato la "distribuzione gaussiana", , come unica distribuzione di errori che ci porta a effettuare questa connessione tra i due metodi.e−x2
Dalla traduzione di Charles Henry Davis (Teoria del movimento dei corpi celesti che si muovono attorno al sole in sezioni coniche. Una traduzione del "Theoria motus" di Gauss, con un'appendice) ...
Gauss definisce:
Di conseguenza, la probabilità da assegnare a ciascun errore sarà espressa da una funzione di che indicheremo con .ΔΔψΔ
(Italizzazione fatta da me)
E continua ( nella sezione 177 pp. 258 ):
... da cui si deduce facilmente che deve essere una quantità costante. che indicheremo con . Quindi abbiamo indica la base dei logaritmi iperbolici per e assumendoψ′ΔΔklog ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
eConstant=logx
finendo (dopo la normalizzazione e realizzando ) ink<0
ψΔ=hπ−−√e−hhΔΔ
Scritto da StackExchangeStrike