Perché c'è -1 nella funzione di densità di distribuzione beta?


18

La distribuzione beta appare sotto due parametrizzazioni (o qui )

f ( x ) x α ( 1 - x ) β

f(x)xα(1x)β(1)

o quello che sembra essere usato più comunemente

f ( x ) x α - 1 ( 1 - x ) β - 1

f(x)xα1(1x)β1(2)

Ma perché c'è esattamente " - 11 " nella seconda formula?

La prima formulazione sembra intuitivamente corrispondere più direttamente alla distribuzione binomiale

g ( k ) p k ( 1 - p ) n - k

g(k)pk(1p)nk(3)

ma "visto" dalla prospettiva di pp . Ciò è particolarmente chiaro nel modello beta-binomiale in cui αα può essere inteso come un precedente numero di successi e ββ è un numero precedente di fallimenti.

Quindi, perché esattamente la seconda forma ha guadagnato popolarità e qual è la logica alla base? Quali sono le conseguenze dell'utilizzo di una delle parametrizzazioni (ad es. Per la connessione con la distribuzione binomiale)?

Sarebbe bello se qualcuno potesse indicare ulteriormente le origini di tale scelta e gli argomenti iniziali per questo, ma non è una necessità per me.


3
In questa risposta viene suggerito un motivo profondo : f èf uguale a x α ( 1 - x ) βxα(1x)β rispetto alla misura d μ = d x / ( ( x ( 1 - x ) )dμ=dx/((x(1x)) . Ciò riduce la tua domanda a "perché quella particolare misura "? Riconoscendo che questa misura è d μ = d ( log ( x1 - x ))
dμ=d(log(x1x))
suggerisce che il modo "giusto" per comprendere queste distribuzioni è applicare la trasformazione logistica: i termini "-11" scompariranno.
whuber

1
Penso che la vera ragione per cui è successo sia quella storica, perché appare così nella funzione beta per la quale la distribuzione prende il nome. Per quanto riguarda il motivo per cui ciò ha - 11 nel potere, mi aspetto che alla fine sarebbe collegato alla ragione menzionata da whuber (anche se storicamente non ha nulla a che fare con la misura o anche la probabilità).
Glen_b -Restate Monica

2
@Glen_b È più che storico: ci sono ragioni profonde. Sono dovuti all'intima connessione tra le funzioni Beta e Gamma, riducendo la domanda sul perché l'esponente in Γ ( s ) = 0 t s - 1 e - t d tΓ(s)=0ts1etdt è s - 1s - 1 e non sS . Questo perché ΓΓ è una somma di Gauss . Equivalentemente, è "giusto" da vedere ΓΓ come un integrale di una homomorphism moltiplicativo t t st tS volte un carattere additivot e - tt e- t rispetto alla misura di Haar d t / tdt/t sul gruppo moltiplicativo R ×R× .
whuber

1
@wh Questo è un buon motivo per cui la funzione gamma dovrebbe essere scelta in quel modo (e ho già suggerito che tale motivo esisteva sopra e accetto una qualche forma di ragionamento simile a quella - ma necessariamente con un formalismo diverso - è stata scelta da Eulero); ragioni altrettanto convincenti si verificano con la densità; ma ciò non stabilisce che questo fosse in realtà il motivo della scelta (perché il modulo è stato scelto così com'era), solo che è una buona ragione per farlo. La forma della funzione gamma ... ctd
Glen_b -Reinstate Monica,

1
ctd ... da solo potrebbe facilmente essere una ragione sufficiente per scegliere quella forma per la densità e per gli altri seguire l'esempio. [Spesso vengono fatte delle scelte per ragioni più semplici che possiamo identificare in seguito e quindi spesso ci vogliono ragioni convincenti per fare qualsiasi altra cosa. Sappiamo che è stato il motivo per cui è stato inizialmente scelto] -? Spieghi chiaramente che c'è un motivo per cui dovremmo scegliere la densità essere in questo modo, piuttosto che il motivo per cui è così. Ciò comporta una sequenza di persone che fanno delle scelte (per usarla in quel modo e per seguirne l'esempio) e le loro ragioni nel momento in cui hanno scelto.
Glen_b

Risposte:


9

Questa è una storia sui gradi di libertà e sui parametri statistici e sul perché è bello che i due abbiano una connessione semplice e diretta.

Storicamente, i termini " - 1 " sono comparsi negli studi di Eulero sulla funzione Beta. Stava usando quella parametrizzazione entro il 1763, e così anche Adrien-Marie Legendre: il loro uso stabilì la successiva convenzione matematica. Questo lavoro anticipa tutte le applicazioni statistiche note.- 1

La moderna teoria matematica fornisce ampie indicazioni, attraverso la ricchezza di applicazioni in analisi, teoria dei numeri e geometria, che il " - 1- 1 " hanno effettivamente un significato. Ho delineato alcuni di questi motivi nei commenti alla domanda.

Di maggiore interesse è ciò che dovrebbe essere la "giusta" parametrizzazione statistica. Non è così chiaro e non deve essere lo stesso della convenzione matematica. Esiste un'enorme rete di famiglie di distribuzioni di probabilità comunemente usate, note e correlate. Pertanto, le convenzioni utilizzate per nominare (ovvero parametrizzare) una famiglia in genere implicano convenzioni correlate per denominare le famiglie correlate. Cambia una parametrizzazione e vorrai cambiarle tutte. Potremmo quindi considerare queste relazioni alla ricerca di indizi.

Poche persone non sarebbero d'accordo sul fatto che le famiglie di distribuzione più importanti derivino dalla famiglia Normale. Ricordiamo che una variabile casuale X è detto essere "Normalmente distribuita" quando ( X - μ ) / σ ha una densità di probabilità F ( x ) proporzionale a exp ( - x 2 / 2 ) . Quando σ = 1 e μ = 0 , si dice che X abbia aX( X- μ ) / σf( x )exp( - x2/2)σ=1μ=0X distribuzione normale standard .

Molti set di dati x 1 , x 2 , , x n sono studiati usando statistiche relativamente semplici che coinvolgono combinazioni razionali dei dati e bassi poteri (tipicamente quadrati). Quando quei dati sono modellati come campioni casuali da una distribuzione Normale - in modo che ogni x i sia vista come una realizzazione di una variabile Normale X i , tutte le X i condividono una distribuzione comune e sono indipendenti - le distribuzioni di tali statistiche sono determinati da quella distribuzione normale. Quelli che sorgono più spesso nella pratica sonox1,x2,,xnxiXiXi

  1. t ν ,ladistribuzione t di Studentcon ν = n - 1 "gradi di libertà". Questa è la distribuzione della statistica t = ˉ Xtνtν=n1se ( X ) dove ˉ X =(X1+X2++Xn)/nmodella la media dei dati ese(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nn )( X 2 1 + X 2 2 + + X 2 n ) / ( n - 1 ) - ˉ X 2 è l'errore standard della media. La divisione pern-1mostra chendeve essere2o maggiore, da cuiνè un numero intero1o maggiore. La formula, sebbene apparentemente un po 'complicata, è la radice quadrata di una funzione razionale dei dati di secondo grado: è relativamente semplice.se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2n1n2ν1
  2. χ 2 ν ,la distribuzione χ 2 (chi-quadrato)con ν "gradi di libertà" (df). Questa è la distribuzione della somma dei quadrati di ν variabili normali standard indipendenti. La distribuzione della media dei quadrati di queste variabili sarà quindi unadistribuzione χ 2 ridimensionata di 1 / ν : farò riferimento a questa come unadistribuzione normal 2 "normalizzata".χ2νχ2ννχ21/νχ2

  3. Fν1,ν2Fν1,ν2, the FF ratio distribution with parameters (ν1,ν2)(ν1,ν2) is the ratio of two independent normalized χ2χ2 distributions with ν1ν1 and ν2ν2 degrees of freedom.

Mathematical calculations show that all three of these distributions have densities. Importantly, the density of the χ2νχ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (ΓΓ) function. Let's compare them:

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

This shows that twice a χ2νχ2ν variable has a Gamma distribution with parameter ν/2ν/2. The factor of one-half is bothersome enough, but subtracting 11 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/21/2), then the exponent in its density function must be one less than half that count.

Why is the factor of 1/21/2 less troublesome than a difference of 11? The reason is that the factor will remain consistent when we add things up. If the sum of squares of nn independent standard Normals is proportional to a Gamma distribution with parameter nn (times some factor), then the sum of squares of mm independent standard Normals is proportional to a Gamma distribution with parameter mm (times the same factor), whence the sum of squares of all n+mn+m variables is proportional to a Gamma distribution with parameter m+nm+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.

If, however, we were to remove that pesky-looking "11" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of xx in the formula, so that a χ21χ21 distribution would be related to a "Gamma(0)(0)" distribution (since the power of xx in its PDF is 11=011=0), then the sum of three χ21χ21 distributions would have to be called a "Gamma(2)(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the 11 from the formula and absorbing it in the parameter.

Similarly, the probability function of an FF ratio distribution is closely related to Beta distributions. Indeed, when YY has an FF ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2)Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2)(ν1/2,ν2/2) distribution. Its density function is proportional to

fZ(z)zν1/21(1z)ν2/21.

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "11" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.


1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim

I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b)(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add aa (not a1a1) to the number of successes and bb (not b1b1) to the number of failures.
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for αα and ββ seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of αα and ββ--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0α,β>0, if UGamma(α,1)UGamma(α,1) and VGamma(β,1)VGamma(β,1) are independent, then X=U/(U+V)X=U/(U+V) is Beta(α,β)Beta(α,β), and the density of XX is proportional to xα1(1x)β1xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!x!. Since it is not possible to compute x!x! directly if xx is not integer, the idea was to find a function for any x0x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1 and f(x+1)=xf(x). We have Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber

The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.