Perché la media aritmetica è più piccola della media di distribuzione in una distribuzione log-normale?


13

Quindi, ho un processo casuale che genera variabili casuali normalmente distribuite nel registro X. Ecco la funzione di densità di probabilità corrispondente:

Figura che rappresenta una funzione di densità di probabilità lognormale

Volevo stimare la distribuzione di alcuni momenti di quella distribuzione originale, diciamo il primo momento: la media aritmetica. Per fare ciò, ho disegnato 100 variabili casuali 10000 volte in modo da poter calcolare 10000 stime della media aritmetica.

Esistono due modi diversi per stimare quel significato (almeno, questo è quello che ho capito: potrei sbagliarmi):

  1. calcolando chiaramente la media aritmetica nel solito modo:
    X¯=i=1NXiN.
  2. o stimando prima e μ dalla distribuzione normale sottostante: μ = N i = 1 log ( X i )σμ e quindi la media come ˉ X =exp(μ+1
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

Il problema è che le distribuzioni corrispondenti a ciascuna di queste stime sono sistematicamente diverse:

I due stimatori forniscono diverse distribuzioni come mostrato in figura.

La media "semplice" (rappresentata da una linea tratteggiata rossa) fornisce valori generalmente più bassi di quello derivato dalla forma esponenziale (linea semplice verde). Sebbene entrambi i mezzi siano calcolati sullo stesso set di dati esatto. Si noti che questa differenza è sistematica.

Perché queste distribuzioni non sono uguali?


quali sono i tuoi veri parametri per e σ ? μσ
Christoph Hanck,

e σ = 1,5 , ma per favore nota che sono interessato a stimare questi parametri, quindi l'approccio Monte-Carlo invece di calcolare la cosa da questi numeri grezzi. μ=3σ=1.5
Giovanni

certo, questo è per la replica dei tuoi risultati.
Christoph Hanck,

4
È interessante notare che questo fenomeno non ha nulla a che fare con la lognormalità. Dati i numeri positivi con logaritmi y i , è noto che la loro media aritmetica (AM) x i / n non è mai inferiore alla loro media geometrica (GM) exp ( xiyixi/n . Nella direzione opposta, l'AM non è mai maggiore del GM moltiplicato per exp ( s 2 y / 2 ) dove s 2 y è la varianza di y iexp(yi/n)exp(sy2/2)sy2yi. Pertanto, la curva rossa tratteggiata deve trovarsi a sinistra della curva verde solida per qualsiasi distribuzione padre (descrivendo numeri casuali positivi).
whuber

Se gran parte della media deriva da una piccola probabilità di numeri enormi, una media aritmetica del campione finito può sottostimare la media della popolazione con alta probabilità. (Nell'aspettativa è imparziale, ma c'è una grande probabilità di una piccola sottostima e una piccola probabilità di una grande stima.) Questa domanda può anche riguardare questa: stats.stackexchange.com/questions/214733/…
Matthew Gunn

Risposte:


12

I due stimatori che stai confrontando sono il metodo dello stimatore dei momenti (1.) e il MLE (2.), vedi quiNexp[μ+1/2σ2]

X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2 .

L'MLE non è tuttavia imparziale.

Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100 a un numero maggiore, che dovrebbe centrare entrambe le distribuzioni attorno al valore reale.

N=1000

enter image description here

Creato con:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2) , la MLE, come spesso accade, è più efficiente.

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
while that of the MM estimator, by a direct application of the CLT applied to samples averages is that of the variance of the log-normal distribution,
exp{2(μ+12σ2)}(exp{σ2}1)
The second is larger than the first because
exp{σ2}>1+σ2+σ4/2,
as exp(x)=i=0xi/i! and σ2>0.

To see that the MLE is indeed biased for small N, I repeat the simulation for N <- c(50,100,200,500,1000,2000,3000,5000) and 50,000 replications and obtain a simulated bias as follows:

enter image description here

We see that the MLE is indeed seriously biased for small N. I am a little surprised about the somewhat erratic behavior of the bias of the MM estimator as a function of N. The simulated bias for small N=50 for MM is likely caused by outliers that affect the non-logged MM estimator more heavily than the MLE. In one simulation run, the largest estimates turned out to be

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

Ah okay. It really did not occur to me that one method could be more efficient than the other given the same data. So I could say that the MLE solution converges faster with respect to N than the other method if I understood correctly. Thanks!
JohnW

1
I made a little edit about the bias. For N=100 the bias is indeed negative for the MM estimator, but that does not seem like a general result, see the plot for the bias as a function of N.
Christoph Hanck

2
Well, I am surprised too that there is such a large difference between the two methods, however this example is absolutely perfect to demonstrate why "just averaging stuff" can be awful!
JohnW

1
@JohnW, I added a little analytical explanation of why the MLE has smaller variance.
Christoph Hanck

1
The discrepancy stems from the fact that the bias is a finite sample problem, i.e., it vanishes as N goes off to infinity. The asymptotic variance (as the name says) comparison only shows what happens in the limit, as N.
Christoph Hanck
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.