Per quali modelli la distorsione dell'MLE diminuisce più velocemente della varianza?


14

Lasciate θ una stima di massima verosimiglianza di un vero parametro θ * di qualche modello. Poiché il numero di punti di dati n aumenta, l'errore θ - θ * tipicamente diminuisce O ( 1 / θ^θnθ^θn )O(1/n). Usando la disuguaglianza e le proprietà del triangolo aspettativa, è possibile dimostrare che tale tasso di errore implica che sia il "polarizzazione"E θ -θ*Eθ^θe "deviazione"E θ - θEθ^θ^diminuzione Allo stessoO(1/n )O(1/n)tasso. Ovviamente, è possibile che i modelli abbiano una distorsione che si riduce a una velocità maggiore. Molti modelli (come la regressione dei minimi quadrati oridini) non hanno parzialità.

Sono interessato a modelli che presentano un pregiudizio che si restringe più velocemente di O ( 1 / n )O(1/n), ma dove l'errore non si riduce a questa velocità maggiore perché la deviazione si riduce ancora comeO(1/n )O(1/n). In particolare, mi piacerebbe conoscere le condizioni sufficienti affinché la distorsione di un modello si riduca alla velocitàO(1/n)O(1/n).


Non θ - θ *= ( θ - θ * ) 2θ^θ=(θ^θ)2 ? O?
Alecos Papadopoulos,

In particolare chiedevo della norma L2, sì. Ma sarei anche interessato ad altre norme se rende più facile rispondere alla domanda.
Mike Izbicki,

( Θ - θ * ) 2(θ^θ)2 è O p ( 1 / n )Op(1/n) .
Alecos Papadopoulos,

Mi dispiace, ho letto male il tuo commento. Per la norma L2 in dimensioni dd , a - b = d i = 1 ( a i - b i ) 2ab=di=1(aibi)2 , e quindi la convergenza è al tasso diO(1/n )O(1/n). Concordo sul fatto che se lo quadrassimo, converrebbe comeO(1/n)O(1/n).
Mike Izbicki,

Hai visto il documento sulla regressione della cresta (Hoerl & Kennard 1970)? Credo che offra condizioni sulla matrice di progettazione + penalità in cui ciò dovrebbe essere vero.
dcl,

Risposte:


5

In generale, sono necessari modelli in cui l'MLE non è asintoticamente normale ma converge in un'altra distribuzione (e lo fa a una velocità maggiore). Questo di solito accade quando il parametro sotto stima è al limite dello spazio dei parametri. Intuitivamente, ciò significa che l'MLE si avvicinerà al parametro "solo da un lato", quindi "migliora la velocità di convergenza" poiché non viene "distratto" andando "avanti e indietro" attorno al parametro.

Un esempio standard è l'MLE per θ in un campione iid di U ( 0 , θ ) uniforme di rv L'MLE qui è la statistica dell'ordine massimo,θU(0,θ)

Θ n=u(n)

θ^n=u(n)

La sua distribuzione del campione finito è

F θ n = ( θ n ) nθ n ,f θ = n ( θ n ) n - 1θ n

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E ( θ n ) = nn + 1 θB ( θ ) = - 1n + 1 θ

E(θ^n)=nn+1θB(θ^)=1n+1θ

So B(ˆθn)=O(1/n)B(θ^n)=O(1/n). But the same increased rate will hold also for the variance.

One can also verify that to obtain a limiting distribution, we need to look at the variable n(θˆθn)n(θθ^n),(i.e we need to scale by nn) since

P[n(θˆθn)z]=1P[ˆθnθ(z/n)]

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

1ez/θ

which is the CDF of the Exponential distribution.

I hope this provides some direction.


This is getting close, but I'm specifically interested in situations where the bias shrinks faster than the variance.
Mike Izbicki

2
@MikeIzbicki Hmm... the bias convergence depends on the first moment of the distribution, and the (square root of the) variance is also a "first-order" magnitude. I am not sure then that this is possible to happen, because it appears that it would imply that the moments of the limiting distribution "arise" at convergence rates that are not compatible with each other... I' ll think about it though.
Alecos Papadopoulos

2

Following comments in my other answer (and looking again at the title of the OP's question!), here is an not very rigorous theoretical exploration of the issue.

We want to determine whether Bias B(ˆθn)=E(ˆθn)θB(θ^n)=E(θ^n)θ may have different convergence rate than the square root of the Variance,

B(ˆθn)=O(1/nδ),Var(ˆθn)=O(1/nγ),γδ???

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

We have

B(ˆθn)=O(1/nδ)limnδE(ˆθn)<Klimn2δ[E(ˆθn)]2<K

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

[E(ˆθn)]2=O(1/n2δ)

[E(θ^n)]2=O(1/n2δ)(1)

while

Var(ˆθn)=O(1/nγ)limnγE(ˆθ2n)[E(ˆθn)]2<M

Var(θ^n)=O(1/nγ)limnγE(θ^2n)[E(θ^n)]2<M

limn2γE(ˆθ2n)n2γ[E(ˆθn)]2<M

limn2γE(θ^2n)n2γ[E(θ^n)]2<M

limn2γE(ˆθ2n)limn2γ[E(ˆθn)]2<M

limn2γE(θ^2n)limn2γ[E(θ^n)]2<M(2)

We see that (2)(2) may hold happen if

A) both components are O(1/n2γ)O(1/n2γ), in which case we can only have γ=δγ=δ.

B) But it may also hold if

limn2γ[E(ˆθn)]20[E(ˆθn)]2=o(1/n2γ)

limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)(3)

For (3)(3) to be compatible with (1)(1), we must have

n2γ<n2δδ>γ

So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.


How would you reconcile this with the existence of unbiased estimators like ordinary least squares? In that case, B(ˆθ)=0, but Var(ˆθ)=O(1/n).
Mike Izbicki

@MikeIzbicki Is the concept of convergence/big-O applicable in this case? Because here B(ˆθ) is not "O()-anything" to begin with.
Alecos Papadopoulos

In this case, Eˆθ=θ, so B(ˆθ)=Eˆθθ=0=O(1)=O(1/n0).
Mike Izbicki

@MikeIzbicki But also B(ˆθ)=O(n) or B(ˆθ)=O(1/n) or any other you care to write down. So which one is the rate of convergence here?
Alecos Papadopoulos

@MikeIzbicki I have corrected my answer to show that it is possible in principle to have the Bias converging faster, although I still think the "zero-bias" example is problematic.
Alecos Papadopoulos
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.