Stima del bias del momento della distribuzione lognormale


25

Sto facendo qualche esperimento numerico che consiste nel campionare una distribuzione lognormale e provo a stimare i momenti con due metodi:X~LN(μ,σ)E[Xn]

  1. Guardando la media campionaria diXn
  2. Stimare e usando i mezzi di esempio per , e quindi usando il fatto che per una distribuzione lognormale, abbiamo .μσ2log(X),log2(X)E[Xn]=exp(nμ+(nσ)2/2)

La domanda è :

Trovo sperimentalmente che il secondo metodo funziona molto meglio del primo, quando tengo fisso il numero di campioni e aumento di qualche fattore T. C'è qualche semplice spiegazione per questo fatto?μ,σ2

Allego una figura in cui l'asse x è T, mentre l'asse y sono i valori di confrontando i valori reali di (linea arancione), ai valori stimati. metodo 1 - punti blu, metodo 2 - punti verdi. l'asse y è in scala logaritmicaE [ X 2 ] = exp ( 2 μ + 2 σ 2 )E[X2]E[X2]=exp(2μ+2σ2)

Valori veri e stimati per $ \ mathbb {E} [X ^ 2] $.  I punti blu sono mezzi di esempio per $ \ mathbb {E} [X ^ 2] $ (metodo 1), mentre i punti verdi sono i valori stimati usando il metodo 2. La linea arancione viene calcolata dal $ $ mu $, $ \ noto sigma $ con la stessa equazione del metodo 2. L'asse y è in scala logaritmica

MODIFICARE:

Di seguito è riportato un codice Mathematica minimo per produrre i risultati per una T, con l'output:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Produzione:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

sopra, il secondo risultato è la media campionaria di , che è al di sotto degli altri due risultatir2


2
Uno stimatore imparziale non implica che i punti blu debbano essere vicini al valore atteso (curva arancione). Uno stimatore può essere imparziale se ha un'alta probabilità di essere troppo basso e una probabilità piccola (forse evanescente) di essere troppo alto. Questo è ciò che accade quando T aumenta e la varianza diventa enorme (vedi la mia risposta).
Matthew Gunn,

Per informazioni su come ottenere stimatori imparziali, consultare stats.stackexchange.com/questions/105717 . Le UMVUE della media e della varianza sono riportate nelle risposte e nei commenti.
whuber

Risposte:


22

C'è qualcosa di sconcertante in quei risultati da allora

  1. il primo metodo fornisce uno stimatore imparziale di , vale a dire 1E[X2]
    1NΣio=1NXio2
    ha come media. Quindi i punti blu dovrebbero essere intorno al valore atteso (curva arancione);E[X2]
  2. il secondo metodo fornisce uno stimatore distorto di , cioè E [ exp ( n μ + n 2 σ 2 / 2 ) ] > exp ( n μ + ( n σ ) 2 / 2 ) quando μ e σ ² sono stimatori di μ eE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^σ^²μσ² rispettivamente, ed è quindi strano che i punti verdi siano allineati con la curva arancione.

ma sono dovuti al problema e non ai calcoli numerici: ho ripetuto l'esperimento in R e ho ottenuto la seguente immagine con lo stesso codice colore e la stessa sequenza di e σ T , che rappresenta ogni stimatore diviso dalla vera aspettativa:μTσT

Due secondi momenti empirici, basati su 10⁶ simulazioni log-normali

Ecco il codice R corrispondente:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

Quindi c'è davvero un collasso del secondo momento empirico all'aumentare di e σ che attribuirei all'enorme aumento della varianza di detto secondo momento empirico all'aumentare di μ e σ .μσμσ

E[X2]X2X2e2μX2exp{2μ+2σε}ε~N(0,1)σσεσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σε>μ+σ2)=P(ε>σ)=1-Φ(σ)

1
Sono anche perplesso. Sto aggiungendo un codice minimo con i risultati (Mathematica)
user29918,

Ok. Grazie! Mettendo alcuni numeri, vedo ora che la mia magra dimensione del campione non era davvero all'altezza del compito!
user29918,

2
σ

2
P(X2>E[X2])=1-Φ(σ)σσ

2
σ

13

Ho pensato di vomitare alcuni fichi che mostravano che le trame di user29918 e Xi'an sono coerenti. La Figura 1 mostra ciò che ha fatto user29918 e la Figura 2 (basata sugli stessi dati), fa ciò che Xi'an ha fatto per la sua trama. Stesso risultato, presentazione diversa.

1nΣioXio2 diventa come cercare di stimare la media della popolazione del Powerball Lotto con l'acquisto di biglietti del Lotto! Una grande percentuale del tempo, sottovaluterai il payoff (perché nessuna osservazione campione colpisce il jackpot) e una piccola percentuale del tempo, sopravvaluterai massicciamente il payoff (perché c'è un vincitore del jackpot nel campione). La media del campione è una stima imparziale ma non si prevede che sia precisa, anche con migliaia e migliaia di pareggi! In effetti, man mano che diventa sempre più difficile vincere il lotto, la media del tuo campione sarà inferiore alla popolazione e la maggior parte delle volte.

Ulteriori commenti:

  1. Uno stimatore imparziale no significa che lo stimatore dovrebbe essere vicino! I punti blu non devono necessariamente essere vicini alle aspettative. Per esempio. una singola osservazione scelta a caso fornisce una stima imparziale della media della popolazione, ma non ci si aspetterebbe che lo stimatore sia vicino.
  2. Il problema sta sorgendo mentre la varianza sta diventando assolutamente astronomica. Mentre la varianza va a gonfie vele, la stima per il primo metodo è guidata solo da alcune osservazioni. Inizi anche ad avere una piccola, minuscola probabilità di un grande numero INSANELY, INSANELY, INSANELY ...
  3. P(X2>E[X2])=1-Φ(σ)σX2>E[X2]inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.