Questa è una storia sui gradi di libertà e sui parametri statistici e sul perché è bello che i due abbiano una connessione semplice e diretta.
Storicamente, i termini " - 1 " sono comparsi negli studi di Eulero sulla funzione Beta. Stava usando quella parametrizzazione entro il 1763, e così anche Adrien-Marie Legendre: il loro uso stabilì la successiva convenzione matematica. Questo lavoro anticipa tutte le applicazioni statistiche note.- 1
La moderna teoria matematica fornisce ampie indicazioni, attraverso la ricchezza di applicazioni in analisi, teoria dei numeri e geometria, che il " - 1- 1 " hanno effettivamente un significato. Ho delineato alcuni di questi motivi nei commenti alla domanda.
Di maggiore interesse è ciò che dovrebbe essere la "giusta" parametrizzazione statistica. Non è così chiaro e non deve essere lo stesso della convenzione matematica. Esiste un'enorme rete di famiglie di distribuzioni di probabilità comunemente usate, note e correlate. Pertanto, le convenzioni utilizzate per nominare (ovvero parametrizzare) una famiglia in genere implicano convenzioni correlate per denominare le famiglie correlate. Cambia una parametrizzazione e vorrai cambiarle tutte. Potremmo quindi considerare queste relazioni alla ricerca di indizi.
Poche persone non sarebbero d'accordo sul fatto che le famiglie di distribuzione più importanti derivino dalla famiglia Normale. Ricordiamo che una variabile casuale X è detto essere "Normalmente distribuita" quando ( X - μ ) / σ ha una densità di probabilità F ( x ) proporzionale a exp ( - x 2 / 2 ) . Quando σ = 1 e μ = 0 , si dice che X abbia aX( X- μ ) / σf( x )exp( - x2/2)σ=1μ=0X distribuzione normale standard .
Molti set di dati x 1 , x 2 , … , x n sono studiati usando statistiche relativamente semplici che coinvolgono combinazioni razionali dei dati e bassi poteri (tipicamente quadrati). Quando quei dati sono modellati come campioni casuali da una distribuzione Normale - in modo che ogni x i sia vista come una realizzazione di una variabile Normale X i , tutte le X i condividono una distribuzione comune e sono indipendenti - le distribuzioni di tali statistiche sono determinati da quella distribuzione normale. Quelli che sorgono più spesso nella pratica sonox1,x2,…,xnxiXiXi
t ν ,ladistribuzione t di Studentcon ν = n - 1 "gradi di libertà". Questa è la distribuzione della statistica t = ˉ Xtνtν=n−1se ( X ) dove ˉ X =(X1+X2+⋯+Xn)/nmodella la media dei dati ese(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/nn ) √( X 2 1 + X 2 2 + ⋯ + X 2 n ) / ( n - 1 ) - ˉ X 2 è l'errore standard della media. La divisione pern-1mostra chendeve essere2o maggiore, da cuiνè un numero intero1o maggiore. La formula, sebbene apparentemente un po 'complicata, è la radice quadrata di una funzione razionale dei dati di secondo grado: è relativamente semplice.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
χ 2 ν ,la distribuzione χ 2 (chi-quadrato)con ν "gradi di libertà" (df). Questa è la distribuzione della somma dei quadrati di ν variabili normali standard indipendenti. La distribuzione della media dei quadrati di queste variabili sarà quindi unadistribuzione χ 2 ridimensionata di 1 / ν : farò riferimento a questa come unadistribuzione normal 2 "normalizzata".χ2νχ2ννχ21/νχ2
Fν1,ν2Fν1,ν2, the FF ratio distribution with parameters (ν1,ν2)(ν1,ν2) is the ratio of two independent normalized χ2χ2 distributions with ν1ν1 and ν2ν2 degrees of freedom.
Mathematical calculations show that all three of these distributions have densities. Importantly, the density of the χ2νχ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (ΓΓ) function. Let's compare them:
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
This shows that twice a χ2νχ2ν variable has a Gamma distribution with parameter ν/2ν/2. The factor of one-half is bothersome enough, but subtracting 11 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/21/2), then the exponent in its density function must be one less than half that count.
Why is the factor of 1/21/2 less troublesome than a difference of 11? The reason is that the factor will remain consistent when we add things up. If the sum of squares of nn independent standard Normals is proportional to a Gamma distribution with parameter nn (times some factor), then the sum of squares of mm independent standard Normals is proportional to a Gamma distribution with parameter mm (times the same factor), whence the sum of squares of all n+mn+m variables is proportional to a Gamma distribution with parameter m+nm+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1−1" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of xx in the formula, so that a χ21χ21 distribution would be related to a "Gamma(0)(0)" distribution (since the power of xx in its PDF is 1−1=01−1=0), then the sum of three χ21χ21 distributions would have to be called a "Gamma(2)(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1−1 from the formula and absorbing it in the parameter.
Similarly, the probability function of an FF ratio distribution is closely related to Beta distributions. Indeed, when YY has an FF ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2)Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2)(ν1/2,ν2/2) distribution. Its density function is proportional to
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1−1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.