La forma chiusa non esiste per T, ma un approccio molto intuitivo e stabile è tramite l'algoritmo EM. Ora, poiché lo studente è una miscela in scala di normali, puoi scrivere il tuo modello come
yio= μ + eio
dove e w i ∼ G a ( νeio| σ, wio∼ N( 0 , σ2w- 1io). Ciò significa che condizionatamentewii mle sono solo la deviazione media e standard di pesata. Questo è il passaggio "M"wio∼ G a ( ν2, ν2)wio
σ 2=Σiwi(yi - μ )2
μ^= ∑iowioyioΣiowio
σ^2=∑iwi(yi−μ^)2n
Ora la "E" sostituisce passo con la sua aspettativa dato tutti i dati. Questo è dato come:wi
w^i=(ν+1)σ2νσ2+(yi−μ)2
quindi basta semplicemente ripetere i due passaggi precedenti, sostituendo il "lato destro" di ciascuna equazione con le stime dei parametri correnti.
Ciò mostra molto facilmente le proprietà di robustezza della distribuzione t poiché le osservazioni con residui di grandi dimensioni ricevono meno peso nel calcolo per la posizione e influenza limitata nel calcolo di σ 2 . Per "influenza limitata" intendo che il contributo alla stima di σ 2 dall'ottava osservazione non può superare una determinata soglia (questo è ( ν + 1 ) σ 2 o l d nell'algoritmo EM). Anche ν è un parametro di "robustezza" in quanto l'aumento (decrescente) ν comporterà pesi più (meno) uniformi e quindi una maggiore (minore) sensibilità ai valori anomali.μσ2σ2(ν+1)σ2oldνν
Una cosa da notare è che la funzione di probabilità logaritmica può avere più di un punto fisso, quindi l'algoritmo EM può convergere in una modalità locale anziché in una modalità globale. È probabile che si trovino le modalità locali quando il parametro location viene avviato troppo vicino a un valore anomalo. Quindi partire dalla mediana è un buon modo per evitarlo.