Esempi in cui il metodo dei momenti può battere la massima probabilità in piccoli campioni?


57

Gli stimatori della massima verosimiglianza (MLE) sono asintoticamente efficienti; vediamo il risultato pratico in quanto spesso fanno meglio delle stime del metodo dei momenti (MoM) (quando differiscono), anche a campioni di piccole dimensioni

Qui "meglio di" significa nel senso che in genere hanno una varianza minore quando entrambi sono imparziali e in genere un errore quadratico medio (MSE) generalmente più piccolo.

La domanda, tuttavia, si presenta:

Ci sono casi in cui il MoM può battere l'MLE - per esempio su MSE - in piccoli campioni?

(laddove questa non è una situazione strana / degenerata - ovvero dato che esistono condizioni affinché ML possa esistere / essere asintoticamente efficiente)

Una domanda di follow-up sarebbe quindi 'quanto grande può essere piccolo?' - vale a dire, se ci sono esempi, ce ne sono ancora alcuni che conservano campioni di dimensioni relativamente grandi, forse anche tutti i campioni finiti?

[Trovo un esempio di uno stimatore distorto che può battere ML in campioni finiti, ma non è MoM.]


Nota aggiunta retrospettivamente: il mio focus qui è principalmente sul caso univariato (che è in realtà la mia curiosità di fondo). Non voglio escludere casi multivariati, ma non voglio in particolare dedicarmi a discussioni estese sulla stima di James-Stein.


Nessun problema; succede a tutti noi e a me più spesso di te. Probabilmente avrei dovuto metterlo nel titolo, ma era già piuttosto lungo.
Glen_b,

@cardinal Ora ho chiarito i criteri.
Glen_b,

3
Esistono altri modi in cui il metodo dei momenti può "battere" la massima probabilità. Ad esempio, nei problemi di stima della miscela normale l'MLE è notoriamente difficile da calcolare mentre il MoM non lo è.
vqv,

@vqv Certamente è un senso in cui il MoM può essere preferibile.
Glen_b,

2
Dato che tendo a simpatizzare con i plebei, informo che in un campione di iid Uniforms , lo stimatore MoM per ha lo stesso MSE con il patrizio (MLE) se la dimensione del campione è , oppure ... Ma ahimè, per campioni di dimensioni maggiori, il patrizio afferma di nuovo la sua sovranità ...θ 1 2U(0,θ)θ12
Alecos Papadopoulos,

Risposte:


36

Questo può essere considerato ... un imbroglio, ma lo stimatore OLS è uno stimatore MoM. Considera una specifica di regressione lineare standard (con regressori stocastici , quindi le magnitudini sono condizionate dalla matrice del regressore) e un campione di dimensione . Indica lo stimatore OLS della varianza del termine di errore. È imparziale cosìn s 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

Considera ora il MLE di . Èσ2

σ^ML2=nKns2
È distorto. Il suo MSE è

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
Esprimendo l'MLE in termini di OLS e usando l'espressione per la varianza dello stimatore OLS otteniamo

MSE( σ 2 M L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Vogliamo le condizioni (se esistono) in base alle quali

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2 n 2 - 4 n K + 2 K 2 + n K 2 - K 3 > 2 n 2 - 4 n + 2 K + n K - K 2 > 0 K 2 - (

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
Semplificando otteniamo È possibile per questo quadratico in ottenere valori negativi? Abbiamo bisogno che il discriminante sia positivo. Abbiamo che è un altro quadratico, in questa volta. Questo discriminante è quindi per tenere conto del fatto che è un numero intero. Se
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnall'interno di questo intervallo abbiamo e la quadratica in assume sempre valori positivi, quindi non possiamo ottenere la disuguaglianza richiesta. Quindi: abbiamo bisogno di una dimensione del campione maggiore di 12.ΔK<0K

Detto questo, le radici di -quadratic sonoK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

Complessivamente: per dimensione del campione e numero di regressori tale che abbiamo per esempio, se allora si trova che il numero di regressori deve essere affinché la disuguaglianza debba essere mantenuta. È interessante notare che per un numero limitato di regressori l'MLE è migliore in termini di MSE.n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

ADDENDUM
È possibile scrivere l' equazione per le radici di -quadraticK

K1,K2=(n2+1)±(n2+1)24n
che a prima vista penso che implica che la radice inferiore sarà sempre essere (tenendo conto della restrizione "valore intero"), così MLE sarà efficiente per MSE quando i regressori sono fino a per qualsiasi dimensione (finita) del campione.55

1
Bene, la condizione del momento teorico fornita con la specifica è . Nella misura in cui usiamo l'analogo di esempio di come stimatore per , direi che lo è. E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos,

1
@AlecosPapadopoulos Il "campione analogico", direi, prenderebbe per il denominatore, cioè sarebbe lo stesso del MLE. Se stai sostituendo l'attesa teorica con l'attesa empirica come potresti finire con nel denominatore? Le condizioni del momento naturale dovrebbero essere ed e la sostituzione con aspettative empiriche ti porterebbe nel denominatore. nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
ragazzo

2
@guy Questa è un'osservazione valida. La correzione dei gradi di libertà è sempre stata, per me, una questione concettuale con il metodo dei momenti. Dopo tutto il "analogica campione" non è un concetto rigoroso, ed è collegato con il concetto di "campionaria" attraverso la corrispondenza asintotica di quest'ultimo con il valore previsto -ma in un quadro asintotico, dividendo per invece di fa non fare alcuna differenza. Per me rimane una questione irrisolta. D'altra parte, lo stimatore della massima verosimiglianza è determinato concretamente dalle equazioni della verosimiglianza e può coincidere o meno con MoM. (CONTD)nKn
Alecos Papadopoulos,

1
@guy (CONTD). Quindi quello che stai dicendo è che lo stimatore MoM della varianza dell'errore in questo caso è lo stimatore della massima verosimiglianza, e quindi il risultato che ho derivato confronta non MoM con ML, ma ML con OLS (quest'ultima essendo una categoria a sé stante). .. sì, si può sostenere che questo è (anche) il caso.
Alecos Papadopoulos,

1
Esiste qualcosa come "lo" stimatore MoM? È "uno" stimatore MoM, giusto? Se prendi un residuo OLS selezionato casualmente, , allora . È un momento perfetto, no? E dà un MoM perfettamente buono per , no? Vale a dire, il solito stimatore OLS, . eE(e2)=nknσ2σ2s2
Bill

17

"In questo articolo, consideriamo una nuova parametrizzazione della distribuzione gaussiana inversa a due parametri. Troviamo gli stimatori per i parametri della distribuzione gaussiana inversa mediante il metodo dei momenti e il metodo della massima probabilità. Quindi, confrontiamo l'efficienza del stimatori per i due metodi basati sul loro errore e errore quadratico medio (MSE). Per questo fissiamo i valori dei parametri, eseguiamo simulazioni e riportiamo MSE e errore per stime ottenute da entrambi i metodi. La conclusione è che quando le dimensioni del campione sono 10, il metodo dei momenti tende ad essere più efficiente del metodo della massima verosimiglianza per le stime di entrambi i parametri (lambda e theta) .... " leggi di più

Al giorno d'oggi non si può (o non si dovrebbe) fidarsi di tutto ciò che viene pubblicato, ma l'ultima pagina dell'articolo sembra promettente. Spero che questo affronti la tua nota aggiunta retrospettivamente.


1
Se capisco correttamente le tabelle in quell'articolo, allora credo che tu abbia ragione - in alcune dimensioni del campione, il metodo dei momenti (MME nel documento) sembra superare MLE, almeno sulla stima di . (Tuttavia, alcuni dei risultati della simulazione sembrano più che un po 'strani - ad es. La progressione della colonna più a destra a p49.) - Questo è un risultato molto interessante per me perché l'inverso gaussiano è relativamente ampiamente usato. θ
Glen_b,

Buona scoperta! Anche se i risultati sono spenti, è bello vedere la richiesta dichiarata esplicitamente da qualche parte.
Ben Ogorek,

Il documento a cui ho collegato la mia risposta è stato originato da una tesi di laurea specialistica, che è disponibile nella sua interezza qui: digi.library.tu.ac.th/thesis/st/0415 Vedere ad esempio la sezione 5.2 per la dichiarazione pertinente. Sei persone, tra cui un professore ordinario, hanno firmato questo risultato.
Ibernazione

14

Secondo le simulazioni condotte da Hosking e Wallis (1987) in "Parametro e stima quantile per la distribuzione di Pareto generalizzata", i parametri della distribuzione di Pareto generalizzata a due parametri forniti dal cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

o la densità

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

sono più affidabili se stimati mediante MOM rispetto a ML. Questo vale per campioni fino alla dimensione 500. Le stime MOM sono fornite da

β^=y¯y2¯2(y2¯(y¯)2)

e

ξ^=12(y¯)22(y2¯(y¯)2)

con

y2¯=1ni=1nyi2

L'articolo contiene alcuni errori di battitura (almeno la mia versione lo fa). I risultati per gli stimatori MOM sopra riportati sono stati gentilmente forniti da "heropup" in questo thread .


Grazie per questo. È uno degli esempi più semplici di ciò che stavo cercando finora.
Glen_b,

13

Ne ho trovato uno:

Per la distribuzione esponenziale asimmetrica della potenza

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

i risultati della simulazione di Delicado e Goria (2008) suggeriscono che per alcuni dei parametri con campioni più piccoli, il metodo dei momenti può superare MLE; per esempio nel caso noto alla dimensione del campione 10, quando si stima , l'MSE di MoM è inferiore rispetto a ML.θσ

Delicado e Goria (2008),
un piccolo esempio di confronto della massima verosimiglianza, dei momenti e dei metodi L-moment per la distribuzione esponenziale asimmetrica dell'energia,
Journal Computational Statistics & Data Analysis
Volume 52 Numero 3, gennaio, pp 1661-1673

(vedi anche http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )


13

Il metodo dei momenti (MM) può battere l'approccio della massima verosimiglianza (ML) quando è possibile specificare solo alcuni momenti della popolazione. Se la distribuzione è mal definita, gli stimatori ML non saranno coerenti.

Supponendo momenti limitati e osservazioni iid, il MM può fornire buoni stimatori con belle proprietà asintotiche.

Esempio: Sia un campione iid di , dove è una funzione di densità di probabilità sconosciuta. Definire del esimo momento e considerare che l'interesse è quello di stimare il quarto momento .X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Sia , quindi assumendo che , il teorema del limite centrale garantisca che dove " " significa "converge nella distribuzione in" . Inoltre, dal teorema di Slutsky,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
poiché (convergenza in probabilità).X8¯X4¯2Pν8ν42

Cioè, possiamo trarre inferenze (approssimative) per usando l'approccio del momento (per campioni di grandi dimensioni), dobbiamo solo fare alcune ipotesi sui momenti di interesse della popolazione. Qui, gli stimatori della massima verosimiglianza non possono essere definiti senza conoscere la forma di . fν4f

Uno studio di simulazione:

Patriota et al. (2009) hanno condotto alcuni studi di simulazione per verificare i tassi di rifiuto dei test di ipotesi in un modello di errori in variabili. I risultati suggeriscono che l'approccio MM produce tassi di errore nell'ipotesi nulla più vicini al livello nominale rispetto a quello ML per piccoli campioni.

Nota storica:

Il metodo dei momenti fu proposto da K. Pearson nel 1894 "Contributi alla teoria matematica dell'evoluzione". Il metodo di massima verosimiglianza fu proposto da RA Fisher nel 1922 "Sulle basi matematiche delle statistiche teoriche". Entrambi gli articoli sono stati pubblicati nelle Transazioni filosofiche della Royal Society of London, serie A.

Riferimento:

Fisher, RA (1922). Sui fondamenti matematici delle statistiche teoriche, Transazioni filosofiche della Royal Society of London, Serie A, 222, 309-368.

Patriota, AG, Bolfarine, H, de Castro, M (2009). Un modello eteroscedastico di errori nelle variabili con errore di equazione, Metodologia statistica 6 (4), 408-423 ( pdf )

Pearson, K (1894). Contributi alla teoria matematica dell'evoluzione, Transazioni filosofiche della Royal Society of London, Serie A, 185, 71-110.


1
La tua risposta sembra potenzialmente interessante. Sei in grado di espanderci un po '? Non sono sicuro di vedere abbastanza.
Glen_b,

@Glen_b, per favore, verifica se la mia ultima aggiunta ti aiuta.
Alexandre Patriota,

Grazie per quello; Credo di vedere a cosa stai arrivando.
Glen_b,

OK, è un commento generale ma penso che risponda alla tua domanda. Se si forniscono informazioni complete sul comportamento dei dati, è del tutto naturale che l'approccio ML superi quello di MM. Nel documento [1] conduciamo alcuni studi di simulazione per verificare i tassi di rifiuto dei test di ipotesi in un modello di errori in variabili. I risultati suggeriscono che l'approccio MM produce tassi di errore nell'ipotesi nulla più vicini al livello nominale rispetto a quello ML per piccoli campioni. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota

Questo è un esempio atipico del metodo dei momenti (MoM). Il MoM viene di solito distribuito in problemi di stima parametrica, dove esiste una famiglia parametrica ben definita di distribuzioni. D'altra parte, qui è possibile definire una stima della probabilità massima non parametrica . La funzione di distribuzione empirica, ad esempio F-hat, è la stima della massima probabilità non parametrica della funzione di distribuzione sconosciuta F. Considerando che il 4o momento è una funzione di F, l'MLE non parametrico del 4o momento è il 4o momento dell'F-hat . Questo è lo stesso del quarto momento di esempio.
vqv,

5

Altre fonti a favore di MOM:

Hong, HP e W. Ye. 2014. Analisi dei carichi estremi di neve al suolo per il Canada utilizzando i record di profondità della neve . Pericoli naturali 73 (2): 355-371.

L'uso dell'MML potrebbe fornire previsioni non realistiche se la dimensione del campione fosse piccola (Hosking et al. 1985; Martin e Stedinger 2000).


Martins, ES e JR Stedinger. 2000. Stima quantistica generalizzata di valore estremo generalizzata di massima verosimiglianza per dati idrologici . Ricerca sulle risorse idriche 36 (3): 737-744.

Astratto:

La distribuzione generalizzata di valori estremi (GEV) a tre parametri ha trovato ampia applicazione per descrivere inondazioni annuali, precipitazioni, velocità del vento, altezze delle onde, altezza della neve e altri massimi. Studi precedenti hanno dimostrato che gli stimatori della massima verosimiglianza (MLE) di piccoli campioni di parametri sono instabili e raccomandano stimatori del momento L. Ricerche più recenti mostrano che il metodo dei momenti che gli stimatori quantili hanno per −0,25 <κ <0,30 errore quadratico medio-radice minore di L momenti e MLE. L'esame del comportamento degli MLE in piccoli campioni dimostra che è possibile generare valori assurdi del parametro della forma GEV κ. L'uso di una distribuzione preventiva bayesiana per limitare i valori di κ a un intervallo statisticamente / fisicamente ragionevole in un'analisi di GML (General Massical Probklihood) elimina questo problema.

Nelle sezioni Introduzione e Revisione della letteratura citano articoli aggiuntivi che concludono che la MOM in alcuni casi supera la MLE (ancora una volta la modellazione di valore estremo), ad es.

Hosking et al. [1985a] mostrano che gli stimatori dei parametri MLE per piccoli campioni sono molto instabili e raccomandano stimatori del momento ponderati in base alla probabilità (PWM) equivalenti agli stimatori del momento L [Hosking, 1990]. [...]

Hosking et al. [1985a] hanno mostrato che gli stimatori dei momenti ponderati per la probabilità (PM) o dei momenti L equivalenti (LM) per la distribuzione GEV sono migliori degli stimatori della massima verosimiglianza (MLE) in termini di bias e varianza per le dimensioni del campione che variano da 15 a 100. Più recentemente, Madsen et al. [1997a] hanno mostrato che gli stimatori quantici del metodo dei momenti (MOM) hanno RMSE (radice-media-quadrante ror) più piccolo per -0,25 <K <0,30 rispetto a LM e MLE quando si stima l'evento di 100 anni per campioni di dimensioni di 10-50 . Gli MLE sono preferibili solo quando K> 0,3 e le dimensioni del campione sono modeste (n> = 50).

K (kappa) è il parametro di forma di GEV.

articoli che compaiono tra virgolette:

Hosking J, Wallis J, Wood E (1985) Stima della distribuzione generalizzata di valori estremi mediante il metodo dei momenti ponderati per la probabilità . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen e D. Rosbjerg (1997) Confronto tra serie massime annuali e metodi di serie a durata parziale per la modellazione di eventi idrologici estremi , 1, modellazione in loco, risorsa di acqua. Ris., 33 (4), 747-758.

Hosking, JRM, L-moment: analisi e stima delle distribuzioni usando combinazioni lineari di statistiche d'ordine , JR Stat. Soc., Ser. B, 52, 105-124, 1990.


Inoltre, ho la stessa esperienza delle conclusioni di cui sopra, in caso di modellazione di eventi estremi con dimensioni del campione piccole e moderate (<50-100 che è tipico) MLE può dare risultati non realistici, la simulazione mostra che la MOM è più robusta e ha RMSE più piccolo.


3

Nel processo di risposta a questo: Stimare i parametri per un binomio mi sono imbattuto in questo documento:

Ingram Olkin, A John Petkau, James V Zidek: un confronto di N stimatori per la distribuzione binomiale. Jasa 1981.

che fornisce un esempio in cui il metodo dei momenti, almeno in alcuni casi, batte la massima probabilità. Il problema è la stima di nella distribuzione binomiale cui entrambi i parametri sono sconosciuti. Appare ad esempio nel tentativo di stimare l'abbondanza di animali quando non è possibile vedere tutti gli animali e anche la probabilità di avvistamento è sconosciuta.Bin ( N , p ) pNBin(N,p)p


Una cosa che è molto bella di questo esempio è che è molto semplice comunicare la situazione: molte persone hanno familiarità con il binomio (almeno nel concetto, se non sempre con il nome).
Glen_b,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.