Stima dei parametri della distribuzione t di Student


23

Quali sono gli stimatori della massima verosimiglianza per i parametri della distribuzione t di Student? Esistono in forma chiusa? Una rapida ricerca su Google non mi ha dato alcun risultato.

Oggi sono interessato al caso univariato, ma probabilmente dovrò estendere il modello a più dimensioni.

EDIT: In realtà sono principalmente interessato alla posizione e ai parametri di scala. Per ora posso supporre che il parametro dei gradi di libertà sia fisso e possibilmente usare qualche schema numerico per trovare il valore ottimale in un secondo momento.


Per quanto ne sappia, non esistono in forma chiusa. Potrebbe essere necessario un approccio al tipo di salita a gradiente.
Pat

Sebbene la distribuzione Student t abbia un singolo parametro, al plurale si fa riferimento a "parametri". Stai forse includendo i parametri di posizione e / o scala?
whuber

@whuber, grazie per il commento, sono davvero interessato ai parametri di posizione e scala, più che ai gradi di libertà.
Grzenio,

Con dati, l'equazione di probabilità per il parametro location è algebricamente equivalente a un polinomio di grado 2 n - 1 . Ritiene che uno zero di un tale polinomio sia dato in "forma chiusa"? n2n-1
whuber

@whuber, ci sono casi speciali per la piccola n, ad es. n = 3?
Grzenio,

Risposte:


27

La forma chiusa non esiste per T, ma un approccio molto intuitivo e stabile è tramite l'algoritmo EM. Ora, poiché lo studente è una miscela in scala di normali, puoi scrivere il tuo modello come

yio=μ+eio

dove e w iG a ( νeio|σ,wio~N(0,σ2wio-1). Ciò significa che condizionatamentewii mle sono solo la deviazione media e standard di pesata. Questo è il passaggio "M"wio~solun'(ν2,ν2)wio

σ 2=Σiwi(yi - μ )2

μ^=ΣiowioyioΣiowio
σ^2=iwi(yiμ^)2n

Ora la "E" sostituisce passo con la sua aspettativa dato tutti i dati. Questo è dato come:wi

w^i=(ν+1)σ2νσ2+(yiμ)2

quindi basta semplicemente ripetere i due passaggi precedenti, sostituendo il "lato destro" di ciascuna equazione con le stime dei parametri correnti.

Ciò mostra molto facilmente le proprietà di robustezza della distribuzione t poiché le osservazioni con residui di grandi dimensioni ricevono meno peso nel calcolo per la posizione e influenza limitata nel calcolo di σ 2 . Per "influenza limitata" intendo che il contributo alla stima di σ 2 dall'ottava osservazione non può superare una determinata soglia (questo è ( ν + 1 ) σ 2 o l d nell'algoritmo EM). Anche ν è un parametro di "robustezza" in quanto l'aumento (decrescente) ν comporterà pesi più (meno) uniformi e quindi una maggiore (minore) sensibilità ai valori anomali.μσ2σ2(ν+1)σold2νν

Una cosa da notare è che la funzione di probabilità logaritmica può avere più di un punto fisso, quindi l'algoritmo EM può convergere in una modalità locale anziché in una modalità globale. È probabile che si trovino le modalità locali quando il parametro location viene avviato troppo vicino a un valore anomalo. Quindi partire dalla mediana è un buon modo per evitarlo.


1
È fantastico Ho pensato per un po 'di tempo all'adattamento dello studente che sta usando EM per il preciso motivo che sembra un misto di gaussiani. Hai una citazione / riferimento per le equazioni di aggiornamento che dai? Avere questo aumenterebbe ulteriormente la bellezza di questo post.
Pat

In realtà, penso di averne trovato uno io stesso, per un modello misto di studenti t (che ho intenzione di usare per cose): le miscele delle distribuzioni t di Student come un solido framework per una rigida registrazione. Demetrios Gerogiannis, Christophoros Nikou, Aristidis Likas. Image and Vision Computing 27 (2009) 1285-1294.
Pat

Il link nella mia risposta a questa domanda ha una struttura EM molto generale per un sacco di funzioni di verosimiglianza - quantile, studente, logistica e fa regressione generale. Il tuo caso specifico è "regressione" senza covariate - solo intercettazione - quindi si adatta perfettamente a questo quadro. Inoltre, ci sono un gran numero di termini di penalità che puoi incorporare in questo framework.
Probislogic,

ν

Penso che questo riferimento sia migliore di @ Pat's. "STIMA ML DELLA DISTRIBUZIONE MEDIANTE EM E SUE ESTENSIONI, ECM ED ECME." È necessario prestare molta attenzione alla selezione del valore del parametro iniziale durante l'esecuzione dell'algoritmo EM a causa del problema locale ottimale. In altre parole, devi sapere qualcosa sui tuoi dati. Di solito, evito l'uso della distribuzione t nella mia ricerca.

4

Il seguente documento affronta esattamente il problema che hai inserito.

Liu C. e Rubin DB 1995. "Stima ML della distribuzione t usando EM e le sue estensioni, ECM ed ECME." Statistica Sinica 5: 19–39.

Fornisce una stima generale dei parametri di distribuzione t multivariata, con o senza la conoscenza del grado di libertà. La procedura può essere trovata nella Sezione 4, ed è molto simile a quella di probabilità per 1 dimensione.


7
Sembra che il documento a cui ti riferisci contenga una risposta utile alla domanda, ma le risposte sono migliori quando sono autonome e non richiedono risorse esterne (qui, ad esempio, è possibile che OP o lettori non abbiano accesso a questo documento ). Potresti arricchire un po 'la tua risposta per renderla più autonoma?
Patrick Coulombe,

3

Γ(ν+12)νπΓ(ν2)(1+t2ν)-ν+12=Γ(ν+12)νπΓ(ν2)exp{[ln(1+t2ν)][-ν+12]}
e prendendone nota, otterrai un'equazione non lineare ν. Anche se riesci a ottenere una soluzione, a seconda del numero di fattori (termini)n, l'equazione MLE dipenderà da questo nin modo non banale. Tutto ciò semplifica notevolmente, ovviamente, quandoν, quando il potere si avvicina a un esponenziale (PDF gaussiano).

1
Even in the Gaussian setting the log likelihood is nonlinear in its parameters :-).
whuber

I am actually interested in location and scale parameters, more than in the degrees of freedom. Please see edit to the question, and sorry for being not precise.
Grzenio

2

Di recente ho scoperto uno stimatore a forma chiusa per la scala della distribuzione t di Student. Per quanto ne so, si tratta di un nuovo contributo, ma gradirei commenti che suggeriscano risultati correlati. L'articolo descrive il metodo nel contesto di una famiglia di distribuzioni "esponenziali accoppiate". La t di Student viene definita gaussiana accoppiata, dove il termine di accoppiamento è il reciproco del grado di libertà. La statistica a forma chiusa è la media geometrica dei campioni. Supponendo un valore dell'accoppiamento o un grado di libertà, una stima della scala viene determinata moltiplicando la media geometrica dei campioni per una funzione che coinvolge l'accoppiamento e un numero armonico.

https://arxiv.org/abs/1804.03989 Uso della media geometrica come statistica per la scala delle distribuzioni gaussiane accoppiate, Kenric P. Nelson, Mark A. Kon, Sabir R. Umarov

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.