Stimatori di massima verosimiglianza - Gaussiano multivariato


20

Contesto

Il gaussiano multivariato appare frequentemente in Machine Learning e i seguenti risultati sono utilizzati in molti libri e corsi ML senza derivazioni.

Dati dati in forma di matrice di dimensioni , se assumiamo che i dati seguano una distribuzione gaussiana -variata con parametri mean ( ) e matrice di covarianza ( ) gli stimatori di massima verosimiglianza sono dati da:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Comprendo che la conoscenza del gaussiano multivariato è un prerequisito per molti corsi di ML, ma sarebbe utile avere la derivazione completa in una risposta autonoma una volta per tutte, poiché sento che molti autoapprendimento rimbalzano intorno alle statistiche. Stackexchange e siti Web math.stackexchange in cerca di risposte.


Domanda

Qual è la piena derivazione degli stimatori della massima verosimiglianza per il gaussiano multivariato


Esempi:

Queste dispense (pagina 11) su Analisi Discriminante Lineare, o questi fanno uso dei risultati e presuppongono conoscenze precedenti.

Ci sono anche alcuni post a cui viene parzialmente risposto o chiuso:

Risposte:


24

Derivazione degli stimatori di massima verosimiglianza

Supponiamo di avere vettori casuali, ognuno delle dimensioni : dove possono essere ogni vettori casuali interpretato come osservazione (punto dati) attraverso le variabili . Se ogni è indicato come vettori gaussiani multivariati:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Dove i parametri sono sconosciuti. Per ottenere il loro preventivo possiamo usare il metodo della massima verosimiglianza e massimizzare la funzione di verosimiglianza.μ,Σ

Si noti che dall'indipendenza dei vettori casuali, la densità congiunta dei dati è il prodotto delle singole densità , ovvero . Prendere il logaritmo dà la funzione di verosimiglianzam i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Derivandoμ^

Per prendere la derivata rispetto a ed equivalere a zero, faremo uso della seguente identità di calcolo della matrice:μ

wAAwTAww=2Aw se non dipende da e è simmetrico.wAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Che è spesso chiamato il vettore medio di esempio .

DerivandoΣ^

La derivazione dell'MLE per la matrice di covarianza richiede più lavoro e l'uso delle seguenti proprietà di algebra lineare e calcolo:

  • La traccia è invariante nelle permutazioni cicliche dei prodotti della matrice:tr[ACB]=tr[CAB]=tr[BCA]
  • Poiché è scalare, possiamo prendere la sua traccia e ottenere lo stesso valore:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

La combinazione di queste proprietà ci consente di calcolare

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Qual è il prodotto esterno del vettore con se stesso.x

Ora possiamo riscrivere la funzione log-verosimiglianza e calcolare la derivata wrt (la nota è costante) CΣ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Equivale a zero e risolve perΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

fonti


Prove alternative, forme più compatte o interpretazione intuitiva sono i benvenuti!
Xavier Bourret Sicotte,

Nella derivazione per , perché deve essere definito positivo? Sembra abbastanza che sia invertibile? Per una matrice invertibile , solo quando ? Σ Σ A A x = 0 x = 0μΣΣAAx=0x=0
Tom Bennett,

Per chiarire, è una matrice che può avere componenti diagonali e non diagonali finite che indicano una correlazione tra vettori, giusto? In tal caso, in che senso questi vettori sono indipendenti? Inoltre, perché la funzione di probabilità congiunta è uguale alla probabilità? La densità articolare, , non dovrebbe essere uguale alla probabilità moltiplicata per il precedente, cioè ? m × m f ( x , y ) f ( x | y ) f ( y )Σm×mf(x,y)f(x|y)f(y)
Mathews24,

1
@TomBennett la matrice sigma è definita positiva per definizione - vedi stats.stackexchange.com/questions/52976/… per la prova. L'identità del calcolo della matrice richiede che la matrice sia simmetrica, non definita positiva. Ma poiché le matrici definite positive sono sempre simmetriche che funzionano
Xavier Bourret Sicotte il

1
Sì, in effetti - l'indipendenza tra le osservazioni consente di ottenere la probabilità - la formulazione potrebbe essere abbastanza poco chiara - questa è la versione multivariata della probabilità. Il precedente è ancora irrilevante a prescindere
Xavier Bourret Sicotte

5

Una prova alternativa per che prende direttamente il derivato rispetto a :Σ^Σ

Raccogliere con la verosimiglianza come sopra: dove e abbiamo usato le proprietà cicliche e lineari di . Per calcolare lo osserviamo prima

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
dalla quarta proprietà sopra. Per prendere la derivata del secondo termine avremo bisogno della proprietà che (da The Matrix Cookbook , equazione 63). Applicando questo con otteniamo che perché sia che sono simmetrici. Poi
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Impostandolo su 0 e riordinando si ottiene Σ =1
Σ^=1mSμ.

Questo approccio richiede più lavoro rispetto a quello standard che utilizza derivati ​​rispetto a e richiede un'identità di traccia più complicata. L'ho trovato utile solo perché al momento ho bisogno di prendere derivati ​​di una funzione di probabilità modificata per la quale sembra molto più difficile usare rispetto a .Λ=Σ1/Σ1/Σ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.