C'è un esempio in cui MLE produce una stima distorta della media?


17

Potete fornire un esempio di uno stimatore MLE della media distorta?

Non sto cercando un esempio che rompe gli stimatori MLE in generale violando le condizioni di regolarità.

Tutti gli esempi che posso vedere su Internet si riferiscono alla varianza e non riesco a trovare nulla di correlato alla media.

MODIFICARE

@MichaelHardy ha fornito un esempio in cui otteniamo una stima parziale della media della distribuzione uniforme usando MLE secondo un determinato modello proposto.

tuttavia

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

suggerisce che MLE è uno stimatore imparziale minimo uniformemente uniforme della media, chiaramente secondo un altro modello proposto.

A questo punto non è ancora molto chiaro per me cosa si intende per stima MLE se si tratta di un modello molto ipotizzato dipendente invece di dire uno stimatore della media del campione che è neutro nel modello. Alla fine sono interessato a stimare qualcosa sulla popolazione e non mi interessa davvero la stima di un parametro di un modello ipotizzato.

MODIFICA 2

Come @ChristophHanck ha mostrato il modello con informazioni aggiuntive ha introdotto una distorsione, ma non è riuscito a ridurre l'MSE.

Abbiamo anche risultati aggiuntivi:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slide 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (diapositiva 5)

"Se esiste uno stimatore imparziale più efficiente ˆθ di θ (ovvero ˆθ è imparziale e la sua varianza è uguale al CRLB), il metodo di stima della massima verosimiglianza lo produrrà."

"Inoltre, se esiste uno stimatore efficiente, è lo stimatore ML."

Poiché l'MLE con parametri del modello libero è imparziale ed efficiente, per definizione è questo "lo" stimatore della massima verosimiglianza?

MODIFICA 3

@AlecosPapadopoulos ha un esempio con distribuzione Half Normal sul forum di matematica.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

Non sta ancorando nessuno dei suoi parametri come nel caso uniforme. Direi che lo risolve, sebbene non abbia dimostrato la propensione dello stimatore medio.


10
La media di un'uniforme su zero e theta.
Christoph Hanck,

1
Non posso seguire la tua distinzione tra "stimare qualcosa sulla popolazione" e "un parametro di un modello ipotizzato". In tutte le statistiche parametriche, parametrizziamo una popolazione in base ad alcuni parametri. Naturalmente, potremmo quindi incorrere in problemi di errata specificazione, ma ciò non sembra essere rilevante per il problema in questione.
Christoph Hanck,

5
Ad esempio, una popolazione può essere caratterizzata dai suoi parametri / momenti, come la media e la varianza (che sarebbe sufficiente per una popolazione normale, per esempio). E: non penso che le persone siano più o meno pedanti con te che con chiunque altro su questo forum.
Christoph Hanck il

2
Se ti senti insoddisfatto dell'apparente gioco di prestigio di passare tra "parametro" e "media", lasciami definire una certa distribuzione non negativa in termini di media μ , con densità 12μ sul suo supporto di[0,2μ]...
Silverfish

1
Per quanto riguarda la modifica 2, molti di questi risultati sono derivati ​​in condizioni di regolarità che non sono soddisfatte per l'esempio uniforme discusso in questo thread, per il quale lo spazio del campione dipende dal parametro.
Christoph Hanck,

Risposte:


32

Christoph Hanck non ha pubblicato i dettagli del suo esempio proposto. Presumo che significhi la distribuzione uniforme sull'intervallo [0,θ], basato su un campione iid X1,,Xn di dimensione superiore a n=1.

La media è θ/2 .

Il MLE della media è max{X1,,Xn}/2.

Questo è distorto poiché quindi E ( max / 2 ) < θ / 2.Pr(max<θ)=1,E(max/2)<θ/2.

PS: Forse dovremmo notare che il miglior stimatore imparziale della media non è la media del campione, ma è piuttostoLa media del campione è una pessima stima di perché per alcuni campioni, la media del campione è inferiore a ed è chiaramente impossibile per essere inferiore afine di PSθ/2θ/21

n+12nmax{X1,,Xn}.
θ/2θ/2max/2.12max{X1,,Xn},θ/2max/2.

Sospetto che la distribuzione di Pareto sia un altro caso del genere. Ecco la misura della probabilità: Il valore atteso èIl MLE del valore atteso è doveα

α(κx)α dxx for x>κ.
nαα1κ.min=min{X1,,Xn}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Non ho calcolato il valore atteso dell'MLE per la media, quindi non so quale sia la sua propensione.


12
Cagdas, Non è lecito chiedere un esempio comune e poi negare che proporresti qualcos'altro! È come chiedere un esempio di un frutto che non è rosso, viene mostrato un mirtillo e poi dire che non conta perché non ti piacciono i mirtilli.
whuber

7
Questo non è rilevante per la domanda che hai posto.
whuber

8
@CagdasOzgenc: se l'MLE è distorto o meno dipende dal modello. Non esiste un MLE senza un modello. E se si modifica il modello, si modifica l'MLE.
Michael Hardy,

8
@CagdasOzgenc Ecco una domanda socratica: la media del campione è uno stimatore imparziale di cosa? È necessario un modello per avere un parametro da stimare.
Matthew Drury,

9
La media di un campione iid è uno stimatore imparziale della media della popolazione, ma non si può parlare di uno stimatore della massima verosimiglianza di qualcosa senza più struttura di quanto sia necessario per parlare di uno stimatore imparziale di qualcosa.
Michael Hardy,

18

Ecco un esempio che penso che alcuni potrebbero trovare sorprendente:

Nella regressione logistica, per qualsiasi dimensione del campione finita con esiti non deterministici (cioè ), qualsiasi coefficiente di regressione stimato non è solo distorto, la media del coefficiente di regressione è in realtà non definita.0<pi<1

Questo perché per qualsiasi dimensione finita del campione, esiste una probabilità positiva (sebbene molto piccola se il numero di campioni è grande rispetto al numero di parametri di regressione) di ottenere una perfetta separazione dei risultati. Quando ciò accade, i coefficienti di regressione stimati saranno o . La probabilità positiva di essere o implica che il valore atteso non è definito.-

Per ulteriori informazioni su questo particolare problema, vedere l' effetto Hauck-Donner .


1
Questo è abbastanza intelligente. Mi chiedo se il MLE dei coefficienti di regressione logistica sia imparziale condizionato alla non-circolarità dell'effetto Hauck-Donner?
gung - Ripristina Monica

3
@gung: Risposta breve: ignorando l'effetto Hauck-Donner, vi è ancora una tendenza al rialzo nei coefficienti di regressione assoluta (cioè i coefficienti negativi hanno una tendenza al ribasso, un positivo ha una tendenza al rialzo). È interessante notare che sembra esserci una propensione verso 0,5 nelle probabilità stimate. Ho iniziato a scriverne su questo post , ma non ho messo i miei risultati sui pregiudizi delle probabilità stimate.
Cliff AB,

10

Sebbene @MichaelHardy abbia chiarito il punto, ecco un argomento più dettagliato sul perché l'MLE del massimo (e quindi quello della media , per invarianza) non è imparziale, sebbene si trovi in ​​un modello diverso (vedi la modifica di seguito).θ/2

U[0,θ]y(n)yy(n) Pertanto, la sua densità è fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
Quindi, E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: E 'davvero il caso che (vedi la discussione nei commenti) la MLE è imparziale per la media nel caso in cui sia il limite inferiore e limite superiore b sono sconosciuti. Quindi, il minimo Y ( 1 ) è l'MLE per a , con (dettagli omessi) valore atteso E ( Y ( 1 ) ) = n a + babY(1)a mentre E(Y(n))=nb+a

E(Y(1))=na+bn+1
modo che il MLE per(a+b)/2sia Y ( 1 ) +Y ( n )
E(Y(n))=nb+an+1
(a+b)/2 con valore atteso E( Y ( 1 ) + Y ( n )
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: Per approfondire il punto di Henry, ecco una piccola simulazione per il MSE degli stimatori della media, mostrando che mentre il MLE se non sappiamo che il limite inferiore è zero è imparziale, gli MSE per le due varianti sono identici , suggerendo che lo stimatore che incorpora la conoscenza del limite inferiore riduce la variabilità.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

Perché Wikipedia sta proponendo un modello diverso per cominciare. Ecco dove sta la mia confusione.
Cagdas Ozgenc,

a=0(max+0)/2

2
Non ho elaborato i dettagli, ma l'MLE in quel modello potrebbe essere imparziale se il minimo sopravvaluta il limite inferiore dello stesso importo del massimo sottovaluta il massimo, in modo che il punto medio venga stimato senza distorsioni.
Christoph Hanck il

4
@CagdasOzgenc: l'imparzialità non è l'unica o addirittura la misura più importante del meglio . Conoscendo con precisione un'estremità del supporto, è possibile perdere l'equilibrio tra gli errori nella stima della media, ma si ottiene (ad esempio) una migliore stima dell'intervallo
Henry,

6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman

5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

Da allora esiste una gamma infinita di esempi per questo fenomeno

  1. lo stimatore della massima verosimiglianza di una trasformazione biiettiva Ψ(θ) di un parametro θ è la trasformazione biiettiva dello stimatore della massima probabilità di θ, Ψ(θ^MLE);
  2. l'attesa della trasformazione biiettiva dello stimatore della massima verosimiglianza di θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] non è la trasformazione biiettiva delle aspettative dello stimatore della massima verosimiglianza, Ψ(E[θ^MLE]);
  3. la maggior parte delle trasformazioni Ψ(θ) sono aspettative di qualche trasformazione dei dati, h(X), almeno per le famiglie esponenziali, a condizione che possa essere applicata una trasformazione inversa di Laplace.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.