Derivazione degli stimatori di massima verosimiglianza
Supponiamo di avere vettori casuali, ognuno delle dimensioni : dove possono essere ogni vettori casuali interpretato come osservazione (punto dati) attraverso le variabili . Se ogni è indicato come vettori gaussiani multivariati:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Dove i parametri sono sconosciuti. Per ottenere il loro preventivo possiamo usare il metodo della massima verosimiglianza e massimizzare la funzione di verosimiglianza.μ,Σ
Si noti che dall'indipendenza dei vettori casuali, la densità congiunta dei dati è il prodotto delle singole densità , ovvero . Prendere il logaritmo dà la funzione di verosimiglianza∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Derivandoμ^
Per prendere la derivata rispetto a ed equivalere a zero, faremo uso della seguente identità di calcolo della matrice:μ
wAA∂wTAw∂w=2Aw se
non dipende da e è simmetrico.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Che è spesso chiamato il vettore medio di esempio .
DerivandoΣ^
La derivazione dell'MLE per la matrice di covarianza richiede più lavoro e l'uso delle seguenti proprietà di algebra lineare e calcolo:
- La traccia è invariante nelle permutazioni cicliche dei prodotti della matrice:tr[ACB]=tr[CAB]=tr[BCA]
- Poiché è scalare, possiamo prendere la sua traccia e ottenere lo stesso valore:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
La combinazione di queste proprietà ci consente di calcolare
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Qual è il prodotto esterno del vettore con se stesso.x
Ora possiamo riscrivere la funzione log-verosimiglianza e calcolare la derivata wrt (la nota è costante) CΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Equivale a zero e risolve perΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
fonti