Quale distribuzione segue il CDF normale inverso di una variabile casuale beta?


14

Supponiamo di definire:

XBeta(α,β)

YΦ1(X)

dove Φ1 è l'inverso del CDF della distribuzione normale standard .

La mia domanda è: esiste una semplice distribuzione che segue Y o che può approssimare Y ? Sto chiedendo perché ho un forte sospetto basato sui risultati della simulazione (mostrati sotto) che Y converge in una distribuzione normale quando α e β sono alti, ma non so perché matematicamente. (Naturalmente quando α=1;β=1 , X sarebbe uniforme e Y sarebbe lo standard normale, ma perché sarebbe vero per valori più alti?).

Se questo converge in una normale, quali sarebbero i parametri di quella normale, in termini di α e β ? (Mi aspetto che la media sia Φ1(αα+β)poiché questa è la trasformazione della modalità, ma non conosco la deviazione standard).

(In altre parole, questo potrebbe essere la domanda " Φ(Norm(μ,σ)) converge in una distribuzione beta, per una direzione di μ e σ "? Non sono sicuro che sia più facile rispondere).

Risultati della simulazione

Qui mostro perché ho il sospetto che il risultato sia normale (dal momento che non posso eseguirne il backup con la matematica). La simulazione di Y può essere eseguita in R con qnorme rnorm. Ad esempio, scegliendo i parametri alti α=3000 e β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Questo sembra normale, e qqnormil test di Shapiro-Wilk (in cui la normalità è l'ipotesi nulla) suggerisce anche questo:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Per esplorare un po 'più a fondo la normalità, eseguo 2000 simulazioni, ogni volta simulando 5.000 valori da Y , quindi eseguendo il test per confrontarlo con il normale. (Ho scelto valori 5K perché è il massimo che shapiro.testpuò gestire e massimizza il potere di rilevare deviazioni dalla norma).

Se la distribuzione fosse davvero normale, ci aspetteremmo che i valori di p siano uniformi (poiché il valore nullo è vero). Sono davvero vicini all'uniforme, suggerendo che la distribuzione è molto vicina alla normale:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Alcune sperimentazioni mostrano che più alti sono e β , più la distribuzione si avvicina alla normalità (ad es. È abbastanza lontana dalla normalità, ma prova e sembra essere in qualche punto nel mezzo).αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))


2
Qui non succede nulla di interessante. Quando e β crescono, supponiamo che rimangano nella stessa proporzione, o almeno che α / ( α + β ) rimanga lontano da 0 e 1 . Quindi la distribuzione Beta ( α , β ) diventa Normale e concentrata in un intervallo arbitrariamente stretto. Φ - 1 , essendo differenziabile, diventa essenzialmente lineare, da cui si sta semplicemente osservando una trasformazione lineare di una variabile quasi normale. Questo risultato non ha altro a che fare con Φ - 1αβα/(α+β)01(α,β)Φ1Φ1stesso e non aggiunge informazioni sulle distribuzioni Beta.
whuber

1
@whuber Questo ha senso per i grandi e β (ho avuto alcune simulazioni che mi hanno fatto pensare che questo fosse più vicino al normale rispetto al normale equivalente approssimativo alla beta, ma al momento della riesecuzione penso di aver avuto un errore in quel momento). Qualsiasi pensiero su α = 2 ; β = 2 ? Dist è molto lontano dal normale, ma qnorm è abbastanza vicino. αβα=2β=2
David Robinson,

1
@whuber Ad esempio hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), prova hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). In altre parole, quando è normale perché la beta è uniforme, quando α e β sono alti è perché la beta è approssimativamente normale, ma perché funziona quando sono uguali e intermedi, dove non è nessuno dei due normale o uniforme? α=β=1αβ
David Robinson,

5
È decisamente più interessante! Hai ragione sul fatto che Beta non è molto vicino a Normale ma che la trasformazione è approssimativamente Normale, anche per piccoli parametri di Beta. Le deviazioni dalla normalità diventano evidenti nelle code, intorno a o superiore, ma sono notevolmente piccole in tutto il corpo della distribuzione. In definitiva, questo è riconducibile al comportamento della legge del potere delle code Beta. Z=±3
whuber

Risposte:


7

Sinossi

Hai riscoperto parte della costruzione descritta nel Teorema del limite centrale per mediane campione, che illustra un'analisi della mediana di un campione. (L'analisi ovviamente si applica, mutatis mutandis , a qualsiasi quantile, non solo alla mediana). Pertanto non sorprende che per grandi parametri Beta (corrispondenti a grandi campioni) si verifichi una distribuzione normale sotto la trasformazione descritta nella domanda. Ciò che interessa è la vicinanza alla Normale anche per piccoli parametri Beta. Questo merita una spiegazione.

Di seguito traccerò un'analisi. Per mantenere questo post a una lunghezza ragionevole, comporta un sacco di suggestivi sventoli di mano: il mio obiettivo è solo quello di sottolineare le idee chiave. Consentitemi quindi di riassumere i risultati qui:

  1. Quando è vicino a β , tutto è simmetrico. Ciò fa sì che la distribuzione trasformata appaia già normale.αβ

  2. Le funzioni della forma sembrano abbastanza normali in primo luogo, anche per piccoli valori di α e β (purché entrambi superino 1 e il loro rapporto non sia troppo vicino a 0 o 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. L'apparente normalità della distribuzione trasformata è dovuta al fatto che la sua densità è costituita da una densità normale moltiplicata per una funzione in (2).

  4. All'aumentare di e β , la deviazione dalla Normalità può essere misurata nei termini rimanenti in una serie di Taylor per la densità del tronco. Il termine dell'ordine n diminuisce in proporzione ai poteri ( n - 2 ) / 2 di α e β . Ciò implica che alla fine, per α e β sufficientemente grandi , tutti i termini di potenza n = 3 o maggiore sono diventati relativamente piccoli, lasciando solo un quadratico: che è precisamente la densità del log di una distribuzione normale.αβn(n2)/2αβαβn=3

Collettivamente, questi comportamenti spiegano bene perché anche per i piccoli e β i quantili non estremi di un campione iid normale sembrano approssimativamente normali.αβ


Analisi

Poiché può essere utile generalizzare, sia una qualsiasi funzione di distribuzione, anche se abbiamo in mente F = Φ .FF=Φ

La funzione di densità di una variabile Beta ( α , β ) è, per definizione, proporzionale ag(y)(α,β)

yα1(1y)β1dy.

Consentendo a essere la trasformata integrale di probabilità di x e la scrittura di f per la derivata di F , è immediato che x abbia una densità proporzionale ay=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Poiché questa è una trasformazione monotonica di una distribuzione fortemente unimodale (una Beta), a meno che non sia piuttosto strano, anche la distribuzione trasformata sarà unimodale. Per studiare quanto potrebbe essere vicino alla Normale, esaminiamo il logaritmo della sua densità,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

dove è una costante irrilevante di normalizzazione.C

Espandere i componenti del nella serie Taylor per ordinarne tre attorno a un valore x 0 (che sarà vicino a una modalità). Ad esempio, possiamo scrivere l'espansione del registro F comelogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

per qualche con | h | | x - x 0 | . Utilizzare una notazione simile per log ( 1 - F ) e log f . h|h||xx0|log(1F)logf

Termini lineari

Il termine lineare in diventa così(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Quando è una modalità di G (x0 , questa espressione è zero. Si noti che poiché i coefficienti sono funzioni continue di x 0 , poiché α e β sono variati, anche la modalità x 0 varierà continuamente. Inoltre, una volta che α e β sono sufficientemente grandi, iltermine c f 1 diventa relativamente insignificante. Se miriamo a studiare il limite come α e β per il quale α : β rimane in proporzione costante γG(;α,β)x0αβx0αβc1fαβ α:βγ, potremmo quindi scegliere una volta per tutte un punto base per il qualex0

γc1F+c11F=0.

Un buon caso è dove , dove α = β per tutto, e F è simmetrico su 0 . In questo caso è evidente x 0 = F ( 0 ) = 1 / 2 .γ=1α=βF0x0=F(0)=1/2

Abbiamo raggiunto un metodo per cui (a) nel limite, il termine del primo ordine nella serie Taylor svanisce e (b) nel caso speciale appena descritto, il termine del primo ordine è sempre zero.

Termini quadratici

Questa è la somma

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Rispetto ad una distribuzione normale, il cui termine quadratico è , si può stimare che - 1 / ( 2 g 2 ( α , β ) ) è approssimativamente la varianza di G . Cerchiamo di standardizzare G riscalando x per la sua radice quadrata. non abbiamo davvero bisogno dei dettagli; è sufficiente capire che questo riscalaggio moltiplicherà il coefficiente di ( x(1/2)(xx0)2/σ21/(2g2(α,β))GGx nell'espansione di Taylor di ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(xx0)n(1/(2g2(α,β)))n/2.

Termine residuo

Ecco la battuta finale: il termine dell'ordine nell'espansione di Taylor è, secondo la nostra notazione,n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

Ff(x)GFα1(1F)β1

αβα=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.


2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).

1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.