Perché il CLT non funziona per


16

Quindi sappiamo che una somma di poisson con il nparametro λ è essa stessa un poisson con nλ . Quindi ipoteticamente, si potrebbe prendere xpoisson(λ=1) e dire che è in realtà 1nxipoisson(λ=1) dove ogni xi è: xipoisson(λ=1/n) , e prendere un grande n ottenga CLT al lavoro.

Questo (ovviamente) non funziona. Suppongo che ciò abbia a che fare con il modo in cui CLT funziona "più velocemente" per variabili casuali che sono "più vicine" alla normalità e che più piccola è lambda, più otteniamo una variabile casuale che è principalmente 0 e varia raramente qualcos'altro.

Tuttavia, ciò che ho spiegato è la mia intuizione. C'è un modo più formale per spiegare perché è così?

Grazie!


6
Per cominciare, CLT ha bisogno di dividere i=1nxi per n (nel qual caso convergerete in gaussiano).
Alex R.

1
@AlexR. No dividi per n , quindi la deviazione standard sarà un fattore 1/n
Aksakal,

4
Non vedo che cosa ha a che fare questa domanda con il CLT "non funziona". Il CLT riguarda somme standardizzate di variabili casuali con una data distribuzione, mentre stai prendendo una singola variabile casuale e stai contemplando infiniti modi per dividerla .
whuber

2
@AlexR Il setup sembra tutto sbagliato. Ci sono due diversi processi in corso qui - somma e divisione - e non c'è motivo di supporre che debbano avere caratteristiche asintotiche simili.
whuber

3
@Aksakal: in realtà, AlexR ha ragione. Se si divide per , si ottiene una distribuzione degenerata come n nn . Se dividi per , ti avvicini a una distribuzione normale con sd = 1 comen. nn
Cliff AB,

Risposte:


13

I agree with @whuber that the root of the confusion seems to be replacing the summation asymptotic in CLT with some sort of division in your argument. In CLT we get the fixed distribution f(x,λ) then draw n numbers xi from it and calculate the sum x¯n=1ni=1nxi. If we keep increasing n then an interesting thing happens:

n(x¯nμ)N(0,σ2)
where μ,σ2 are mean and the variance of the distribution f(x).

Quello che stai suggerendo di fare con Poisson è un po 'all'indietro: invece di sommare le variabili da una distribuzione fissa , vuoi dividere la distribuzione fissa in parti in continua evoluzione . In altre parole prendi una variabile da una distribuzione fissa f ( x , λ ) quindi la dividi in x i in modo che n i = 1 x ixxf(x,λ)xi

i=1nxix

Cosa dice CLT su questo processo? Niente. Nota, come in CLT abbiamo mai cambiato e la suadistribuzionevariabilefn(x)che converge in unadistribuzionefissaN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Nella tua configurazione né la somma né la sua distribuzione f ( x , λ ) stanno cambiando! Sono riparati. Non stanno cambiando, non stanno convergendo a nulla. Quindi, CLT non ha nulla da dire al riguardo.xf(x,λ)

Inoltre, CLT non dice nulla sul numero di elementi nella somma. Puoi avere una somma di 1000 variabili da Poisson (0.001) e CLT non dirà nulla sulla somma. Tutto ciò che dice è che se continui ad aumentare N, ad un certo punto questa somma inizierà ad apparire come una normale distribuzione1Ni=1Nxi,xiPoisson(0.001) . Infatti se N = 1.000.000 otterrai l'approssimazione ravvicinata della distribuzione normale.

La tua intuizione ha ragione solo sul numero di elementi nella somma, vale a dire che più la distribuzione iniziale è diversa dalla normale, quindi più elementi che devi sommare per arrivare alla normalità. Il modo più formale (ma ancora informale) sarebbe guardando la funzione caratteristica di Poisson: Se si À > > 1 , che si ottiene con lo sviluppo di Taylor (WRT t ) dell'esponente nidificato: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t
exp(iλtλ/2t2)
Questa è la funzione caratteristica della distribuzione normale N(λ,λ2)

Tuttavia, la tua intuizione non viene applicata correttamente: lo spostamento della sommatoria in CLT con una sorta di divisione confonde le cose e rende CLT inapplicabile.


+1 Il materiale di prefazione è ben formulato, molto chiaro e arriva al cuore della questione.
whuber

7

Il problema con il tuo esempio è che stai permettendo ai parametri di cambiare come cambia. Il CLT ti dice che per una distribuzione fissa con una media finita e sd, come n nn ,

xμndN(0,σ) ,

dove e σ sono dalla media e sd della distribuzione di x .μσx

Of course, for different distributions (i.e. higher skewed for example), larger n's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m, an n>>m is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. xi/n not xi). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ). And we all learned in our upper division probability course that for large λ, the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.