Come capire i gradi di libertà?


257

Da Wikipedia , ci sono tre interpretazioni dei gradi di libertà di una statistica:

In statistica, il numero di gradi di libertà è il numero di valori nel calcolo finale di una statistica che sono liberi di variare .

Le stime dei parametri statistici possono essere basate su diverse quantità di informazioni o dati. Il numero di informazioni indipendenti che vanno nella stima di un parametro è chiamato gradi di libertà (df). In generale, i gradi di libertà di una stima di un parametro sono uguali al numero di punteggi indipendenti che vanno nella stima meno il numero di parametri usati come passaggi intermedi nella stima del parametro stesso (che, nella varianza del campione, è uno, poiché la media del campione è l'unico passaggio intermedio).

Matematicamente, i gradi di libertà sono la dimensione del dominio di un vettore casuale , o essenzialmente il numero di componenti "liberi": quanti componenti devono essere conosciuti prima che il vettore sia completamente determinato .

Le parole in grassetto sono ciò che non capisco del tutto. Se possibile, alcune formulazioni matematiche aiuteranno a chiarire il concetto.

Anche le tre interpretazioni sono d'accordo?


Dai

Risposte:


242

Questa è una domanda sottile. Ci vuole una persona premurosa per non capire quelle citazioni! Sebbene siano suggestivi, si scopre che nessuno di essi è esattamente o generalmente corretto. Non ho il tempo (e non c'è lo spazio qui) per dare un'esposizione completa, ma vorrei condividere un approccio e un'intuizione che suggerisce.

Dove nasce il concetto di gradi di libertà (DF)? I contesti in cui si trova nei trattamenti elementari sono:

  • Il test t di Student e le sue varianti come le soluzioni Welch o Satterthwaite al problema Behrens-Fisher (in cui due popolazioni hanno varianze diverse).

  • La distribuzione Chi-quadrato (definita come una somma di quadrati di normali standard indipendenti), che è implicata nella distribuzione campionaria della varianza.

  • Il test F (di rapporti di varianze stimate).

  • Il test Chi-quadrato , che comprende i suoi usi in (a) test per l'indipendenza nelle tabelle di contingenza e (b) test per la bontà di adattamento delle stime distributive.

Nello spirito, questi test vanno dall'esattezza (il test t di Student e il test F per i variati normali) ad essere buone approssimazioni (il test t di Student e i test Welch / Satterthwaite per dati non troppo distorti ) basandosi su approssimazioni asintotiche (il test Chi-quadrato). Un aspetto interessante di alcuni di questi è la comparsa di "gradi di libertà" non integrali (i test di Welch / Satterthwaite e, come vedremo, il test Chi-quadrato). Questo è di particolare interesse perché è il primo suggerimento che DF non è una delle cose rivendicate.

Possiamo eliminare immediatamente alcune delle affermazioni contenute nella domanda. Poiché il "calcolo finale di una statistica" non è ben definito (apparentemente dipende da quale algoritmo si utilizza per il calcolo), non può essere altro che un vago suggerimento e non vale ulteriori critiche. Allo stesso modo, né "il numero di punteggi indipendenti che rientrano nella stima" né "il numero di parametri utilizzati come passaggi intermedi" sono ben definiti.

"Informazioni indipendenti che vanno in [una] stima" sono difficili da gestire, perché ci sono due sensi diversi ma intimamente correlati di "indipendente" che possono essere rilevanti qui. Uno è l'indipendenza delle variabili casuali; l'altro è l' indipendenza funzionale. Come esempio di quest'ultimo, supponiamo di raccogliere misurazioni morfometriche dei soggetti - diciamo, per semplicità, le tre lunghezze laterali , , , le aree superficiali e i volumi di una serie di blocchi di legno. Le tre lunghezze laterali possono essere considerate variabili casuali indipendenti, ma tutte e cinque le variabili sono camper dipendenti. I cinque sono anche funzionalmenteY Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) , , V ( ψ ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZdipendente perché il codomain ( non il "dominio"!) della variabile aleatoria a valori vettoriali traccia una varietà tridimensionale in . (Quindi, localmente in qualsiasi punto , ci sono due funzioni e per le quali e per i punti "vicino" e i derivati ​​di e valutati in(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgωsono linearmente indipendenti) Tuttavia -. ecco il kicker - per molte misure di probabilità sui blocchi, sottoinsiemi delle variabili come sono dipendenti come variabili aleatorie ma funzionalmente indipendente.(X,S,V)

Essendo stati allertati da queste potenziali ambiguità, sosteniamo il test di bontà del quadrato di Chi per l'esame , perché (a) è semplice, (b) è una delle situazioni comuni in cui le persone hanno davvero bisogno di conoscere DF per ottenere il valore p giusto e (c) è spesso usato in modo errato. Ecco una breve sinossi dell'applicazione meno controversa di questo test:

  • Hai una raccolta di valori di dati , considerati come un campione di una popolazione.(x1,,xn)

  • Hai stimato alcuni parametri di una distribuzione. Ad esempio, hai stimato la media e la deviazione standard di una distribuzione normale, ipotizzando che la popolazione sia normalmente distribuita ma non sapendo (prima di ottenere i dati) quale potrebbe essere o .θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • In anticipo, hai creato un set di "bin" per i dati. (Può essere problematico quando i bin sono determinati dai dati, anche se questo è spesso fatto.) Usando questi bin, i dati sono ridotti al set di conteggi all'interno di ogni bin. Anticipando quali potrebbero essere i veri valori di , lo hai organizzato in modo (si spera) che ogni cestino riceva approssimativamente lo stesso conteggio. (Il binning delle pari probabilità assicura che la distribuzione del chi-quadrato sia davvero una buona approssimazione alla vera distribuzione della statistica del chi-quadrato che sta per essere descritta.)( θ )k(θ)

  • Hai molti dati, abbastanza per garantire che quasi tutti i contenitori debbano avere un numero di 5 o superiore. (Questo, speriamo, consentirà alla distribuzione campionaria della statistica di essere approssimata adeguatamente da una distribuzione )χ 2χ2χ2

Utilizzando le stime dei parametri, è possibile calcolare il conteggio previsto in ogni bin. La statistica Chi-quadrata è la somma dei rapporti

(observedexpected)2expected.

Questo, ci dicono molte autorità, dovrebbe avere (con una approssimazione molto ravvicinata) una distribuzione Chi-quadrata. Ma c'è un'intera famiglia di tali distribuzioni. Sono differenziati da un parametro spesso indicato come "gradi di libertà". Il ragionamento standard su come determinare va cosìννν

Ho conteggi. Sono pezzi di dati. Ma ci sono relazioni ( funzionali ) tra loro. Per cominciare, so in anticipo che la somma dei conteggi deve essere uguale a . Questa è una relazione. Ho stimato due (o , generalmente) parametri dai dati. Sono due (o ) relazioni aggiuntive, che danno relazioni totali. Presumendo che (i parametri) siano tutti ( funzionalmente ) indipendenti, che lascia solo "gradi di libertà" ( funzionalmente ) indipendenti: questo è il valore da usare per .k n p pkknppp+1νkp1ν

Il problema con questo ragionamento (che è il tipo di calcolo a cui fanno riferimento le citazioni nella domanda) è che è sbagliato tranne quando sussistono alcune condizioni aggiuntive speciali. Inoltre, tali condizioni non hanno nulla a che fare con l'indipendenza (funzionale o statistica), con il numero di "componenti" dei dati, con il numero di parametri, né con qualsiasi altra cosa a cui si fa riferimento nella domanda originale.

Lascia che ti mostri un esempio. (Per renderlo il più chiaro possibile, sto usando un piccolo numero di bin, ma questo non è essenziale. Generiamo 20 variate normali standard indipendenti e identicamente distribuite (iid) e stimiamo la loro deviazione media e standard con le solite formule ( media = somma / conteggio, ecc .). Per testare la bontà di adattamento, creare quattro contenitori con punti di taglio ai quartili di una normale standard: -0.675, 0, +0.657 e utilizzare i conteggi dei contenitori per generare una statistica Chi-quadrato. Ripeti quando la pazienza lo consente; Ho avuto il tempo di fare 10.000 ripetizioni.

La saggezza standard su DF dice che abbiamo 4 bin e 1 + 2 = 3 vincoli, implicando che la distribuzione di queste 10.000 statistiche Chi-quadrato dovrebbe seguire una distribuzione Chi-quadrato con 1 DF. Ecco l'istogramma:

Figura 1

La linea blu scuro rappresenta graficamente il PDF di una distribuzione - quella che pensavamo avrebbe funzionato - mentre la linea rosso scuro rappresentava quella di una distribuzione (che sarebbe una buona indovina se qualcuno ti dicesse che non è corretto). Né si adatta ai dati.χ 2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

Potresti aspettarti che il problema sia dovuto alle dimensioni ridotte dei set di dati ( = 20) o forse alle dimensioni ridotte del numero di bin. Tuttavia, il problema persiste anche con set di dati molto grandi e un numero maggiore di bin: non è semplicemente un fallimento nel raggiungere un'approssimazione asintotica.n

Le cose sono andate male perché ho violato due requisiti del test Chi-quadrato:

  1. È necessario utilizzare la stima della massima verosimiglianza dei parametri. (In pratica, questo requisito può essere leggermente violato.)

  2. È necessario basare tale stima sui conteggi, non sui dati effettivi! (Questo è cruciale .)

figura 2

L'istogramma rosso raffigura le statistiche chi-quadrato per 10.000 iterazioni separate, seguendo questi requisiti. Abbastanza sicuro, segue visibilmente la curva (con una quantità accettabile di errore di campionamento), come avevamo inizialmente sperato.χ2(1)

Il punto di questo confronto - che spero tu abbia visto arrivare - è che il DF corretto da usare per calcolare i valori p dipende da molte cose diverse dalle dimensioni delle varietà, dai conteggi delle relazioni funzionali o dalla geometria dei variati normali . Esiste una sottile, delicata interazione tra determinate dipendenze funzionali, come si trova nelle relazioni matematiche tra quantità e distribuzioni dei dati, delle loro statistiche e degli stimatori formati da esse. Di conseguenza, non è possibile che DF sia adeguatamente spiegabile in termini di geometria delle distribuzioni normali multivariate, o in termini di indipendenza funzionale, o come conteggi di parametri o qualsiasi altra cosa di questa natura.

Siamo indotti a vedere, quindi, che i "gradi di libertà" sono semplicemente un'euristica che suggerisce ciò che dovrebbe essere la distribuzione campionaria di una statistica (t, Chi-quadrato o F), ma non è dispositivo. La convinzione che sia un dispositivo porta a errori significativi. (Ad esempio, il colpo più alto su Google durante la ricerca di "bontà del quadrato di adattamento" è una pagina Web di un'università della Ivy League che sbaglia la maggior parte di tutto ciò! In particolare, una simulazione basata sulle sue istruzioni mostra che il chi-quadrato valore che consiglia di avere 7 DF in realtà ha 9 DF.)

Con questa comprensione più sfumata, vale la pena rileggere l'articolo di Wikipedia in questione: nei suoi dettagli fa le cose giuste, sottolineando dove l'euristica di DF tende a funzionare e dove è un'approssimazione o non si applica affatto.


Un buon resoconto del fenomeno qui illustrato (DF inaspettatamente elevato nei test GOF Chi-quadrato) appare nel Volume II di Kendall & Stuart, 5a edizione . Sono grato per l'opportunità offerta da questa domanda di riportarmi a questo meraviglioso testo, che è pieno di analisi così utili.


Modifica (gennaio 2017)

Ecco il Rcodice per produrre la figura seguente "La saggezza standard su DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Questa è una risposta straordinaria. Vinci su Internet per questo.
Adam,

6
@caracal: come sai, i metodi ML per i dati originali sono di routine e diffusi: per la distribuzione normale, ad esempio, l'MLE di è la media del campione e l'MLE di è la radice quadrata della deviazione standard del campione ( senza la solita correzione del bias). Per ottenere stime basate sui conteggi, ho calcolato la funzione di verosimiglianza per i conteggi - ciò richiede i valori di calcolo del CDF ai punti di interruzione, prendendo i loro registri, moltiplicando per i conteggi e sommando - e ottimizzato utilizzando un software di ottimizzazione generico. σμσ
whuber

4
@caracal Probabilmente non ne hai più bisogno, ma un esempio di Rcodice per l'adattamento ML dei dati acquisiti ora appare in una domanda correlata: stats.stackexchange.com/a/34894 .
whuber

1
"Il problema con questo ragionamento (che è il tipo di calcolo a cui fanno riferimento le citazioni nella domanda) è che è sbagliato tranne quando sussistono alcune condizioni aggiuntive speciali." Ora sto (quasi) attraversando due semestri di una sequenza di modelli lineari e capisco che i gradi di libertà sono il rango della matrice nel "mezzo" della forma quadratica. Quali sono queste "condizioni aggiuntive"?
Clarinetist,

4
@Clarinetist Il punto principale della mia risposta è suggerire che ciò che ti è stato insegnato si basa su una confusione di due concetti di DF. Sebbene questa confusione non causi problemi per i modelli di teoria normale dei minimi quadrati standard, porta a errori anche in circostanze semplici e comuni come le analisi delle tabelle di contingenza. Quel rango di matrice fornisce il DF funzionale . In un modello lineare a minimi quadrati capita che dia il DF corretto per alcuni tipi di test, come i test F. Per il test chi-quadrato, le condizioni speciali sono elencate più avanti nella risposta come punti (1) e (2).
whuber

74

O semplicemente: il numero di elementi in una matrice numerica che è possibile modificare in modo che il valore della statistica rimanga invariato.

# for instance if:
x + y + z = 10

si può cambiare, per esempio, x e y a caso, ma non è possibile modificare z (è possibile, ma non a caso, quindi, non siete liberi di cambiarlo - vedi il commento di Harvey), perche' si modifica il valore della statistica (Σ = 10). Quindi, in questo caso df = 2.


19
Non è del tutto corretto dire "non puoi cambiare z". In effetti, devi cambiare z per rendere la somma uguale a 10. Ma non hai scelta (nessuna libertà) su cosa cambia. È possibile modificare due valori qualsiasi, ma non il terzo.
Harvey Motulsky,

53

Il concetto non è affatto difficile fare matematico preciso dato un po 'di conoscenza generale di geometria euclidea -dimensionale, sottospazi e proiezioni ortogonali.n

Se è una proiezione ortogonale da a un sottospazio -dimensionale e è un -vettore arbitrario allora è in , e sono ortogonali e è nel complemento ortogonale di . La dimensione di questo complemento ortogonale, , è . Se è libero di variare in uno spazio dimensionale, allora è libero di variare in unoR n p L x n P x L x - P x P x x - P x L L L n - p x n x - P x n - p x - P x n - pPRnpLxnPxLxPxPxxPxLLLnpxnxPxnpspazio dimensionale . Per questo motivo diciamo che ha gradi di libertà .xPxnp

Queste considerazioni sono importanti per la statistica perché se è un vettore casuale dimensionale e è un modello della sua media, cioè il vettore medio è in , allora chiamiamo il vettore dei residui , e usiamo i residui per stimare la varianza. Il vettore dei residui ha gradi di libertà, cioè è vincolato a un sottospazio di dimensione .n L E ( X ) L X - P X n - p n - pXnLE(X)LXPXnpnp

Se le coordinate di sono indipendenti e normalmente distribuite con la stessa varianza alloraσ 2Xσ2

  • I vettori e sono indipendenti.X - P XPXXPX
  • Se la distribuzione della norma quadrata del vettore dei residui è una distribuzione con parametro di scala e un altro parametro che risulta essere i gradi di libertà .| | X - P X | | 2 χ 2 σ 2 n - pE(X)L||XPX||2χ2σ2np

Lo schizzo della prova di questi fatti è riportato di seguito. I due risultati sono fondamentali per l'ulteriore sviluppo della teoria statistica basata sulla distribuzione normale. Nota anche che questo è il motivo per cui la distribuzione ha la parametrizzazione che ha. È anche una distribuzione con parametro di scala e parametro di forma , ma nel contesto sopra è naturale parametrizzare in termini di gradi di libertà. Γ 2 σ 2 ( n - p ) / 2χ2Γ2σ2(np)/2

Devo ammettere che non trovo particolarmente illuminante nessuno dei paragrafi citati dall'articolo di Wikipedia, ma non sono neppure sbagliati o contraddittori. Dicono in modo impreciso, e in senso lato generale, che quando calcoliamo la stima del parametro varianza, ma lo facciamo in base ai residui, basiamo il calcolo su un vettore che è libero di variare solo in uno spazio di dimensione .np

Al di là della teoria dei modelli lineari normali, l'uso del concetto di gradi di libertà può essere fonte di confusione. Ad esempio, viene utilizzato nella parametrizzazione della indipendentemente dal fatto che ci sia o meno un riferimento a qualcosa che potrebbe avere qualche grado di libertà. Quando consideriamo l'analisi statistica dei dati categorici, ci può essere una certa confusione sul fatto che i "pezzi indipendenti" debbano essere conteggiati prima o dopo una tabulazione. Inoltre, per i vincoli, anche per i modelli normali, che non sono vincoli del sottospazio, non è ovvio come estendere il concetto di gradi di libertà. Esistono vari suggerimenti in genere sotto il nome di effettivi gradi di libertà.χ2

Prima di prendere in considerazione altri usi e significati dei gradi di libertà, raccomanderò vivamente di prendere confidenza con esso nel contesto di modelli normali lineari. Un riferimento relativo a questa classe di modelli è Un primo corso di teoria dei modelli lineari e ci sono riferimenti aggiuntivi nella prefazione del libro ad altri libri classici su modelli lineari.

Prova dei risultati di cui sopra: Let , nota che la matrice di varianza è e scegli una base ortonormale di e una base ortonormale di . Quindi è una base ortonormale di . Let denota il -vettore dei coefficienti di in questa base, ovvero Questo può anche essere scritto come dove è la matrice ortogonale conσ 2 I z 1 , ... , z p L z p + 1 , ... , z n L z 1 , ... , z n R n ~ X n X ~ X i = Z T i X . ˜ X = Z T X Z z i ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~nX

X~i=ziTX.
X~=ZTXZzi è nelle colonne. Poi dobbiamo utilizzare che ha una distribuzione normale con media e, poiché è ortogonale, matrice di varianza . Ciò deriva dai risultati generali di trasformazione lineare della distribuzione normale. La base è stata scelta in modo tale che i coefficienti di siano per , e i coefficienti di siano per . Poiché i coefficienti non sono correlati e congiuntamente normali, sono indipendenti e questo implica che e X~Z σ 2 I P X ˜ X i i = 1 , , p X - P X ˜ X i i = p + 1 , , n P X = p i = 1 ˜ X i z i X - P X = n i = p + 1 ˜ZTξZσ2IPXX~ii=1,,pXPXX~ii=p+1,,n
PX=i=1pX~izi
| | X-PX| | 2=n i=p+1 ˜ X 2 i . ξLE( ˜ X i)=z T i ξ=0i=p+1,,nziLziξ|
XPX=i=p+1nX~izi
sono indipendenti. Inoltre, Se allora per perché quindi e quindi . In questo caso è la somma delle variabili casuali distribuite indipendenti , la cui distribuzione, per definizione, è una distribuzione con parametro di scala e gradi di libertà.
||XPX||2=i=p+1nX~i2.
ξLE(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)χ2σ2np

NRH, grazie! (1) Perché deve trovarsi all'interno di ? (2) Perché e sono indipendenti? (3) Il dof nel contesto variabile casuale è definito dal dof nel suo caso deterministico? Ad esempio, il motivo di ha dof perché è vero quando è una variabile deterministica anziché una variabile casuale? (4) Ci sono riferimenti (libri, documenti o link) che hanno la stessa / simile opinione della tua? E(X)LPXXPX||XPX||2npX
Tim

@Tim, e sono indipendenti, poiché sono normali e non correlati. PXXPX
mpiktas,

@Tim, ho riformulato un po 'la risposta e ho dato una prova dei risultati dichiarati. La media deve essere in per dimostrare il risultato della distribuzione . È un presupposto modello. In letteratura dovresti cercare modelli normali lineari o modelli lineari generali, ma in questo momento posso solo ricordare alcuni appunti di lezione vecchi e inediti. Vedrò se riesco a trovare un riferimento adatto. Lχ2
NRH,

Risposta meravigliosa Grazie per la comprensione. Una domanda: mi sono perso cosa intendevi con la frase "il vettore medio è in ". Puoi spiegare? Stai cercando di definire ? definire ? qualcos'altro? Forse questa frase sta cercando di fare troppo o di essere troppo concisa per me. Puoi elaborare qual è la definizione di nel contesto che menzioni: è solo ? Puoi approfondire cosa è in questo contesto (di normali coordinate iid)? È solo ? EXLELEE(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW,

@DW La è l'operatore delle aspettative. Quindi, è il vettore delle aspettative coordinatewise di . Il sottospazio è un sottospazio -dimensionale di . È uno spazio di -vettori e certamente non , ma può benissimo essere monodimensionale. L'esempio più semplice è forse quando è attraversato dal con un 1 a tutte le coordinate . Questo è il modello di tutte le coordinate di con lo stesso valore medio, ma sono possibili molti modelli più complicati. E ( X ) X L p R n n R 1 n XEE(X)XLpRnnR1nX
NRH

30

In realtà non è diverso dal modo in cui il termine "gradi di libertà" funziona in qualsiasi altro campo. Ad esempio, supponiamo di avere quattro variabili: la lunghezza, la larghezza, l'area e il perimetro di un rettangolo. Sai davvero quattro cose? No, perché ci sono solo due gradi di libertà. Se conosci la lunghezza e la larghezza, puoi derivare l'area e il perimetro. Se conosci la lunghezza e l'area, puoi ricavare la larghezza e il perimetro. Se conosci l'area e il perimetro puoi ricavare la lunghezza e la larghezza (fino alla rotazione). Se hai tutti e quattro, puoi dire che il sistema è coerente (tutte le variabili concordano tra loro) o incoerente (nessun rettangolo potrebbe effettivamente soddisfare tutte le condizioni). Un quadrato è un rettangolo con un grado di libertà rimosso;

In statistica, le cose diventano più sfocate, ma l'idea è sempre la stessa. Se tutti i dati che stai usando come input per una funzione sono variabili indipendenti, allora hai tanti gradi di libertà quanti sono gli input. Ma se hanno una dipendenza in qualche modo, in modo tale che se avessi input n - k potresti capire i k rimanenti, allora in realtà hai solo n - k gradi di libertà. E a volte devi tenerne conto, per non convincerti che i dati sono più affidabili o hanno un potere predittivo maggiore di quello che fanno realmente, contando più punti di dati di quanti ne possiedi realmente bit di dati indipendenti.

(Tratto da un post all'indirizzo http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Inoltre, tutte e tre le definizioni stanno quasi provando a dare lo stesso messaggio.


1
Fondamentalmente giusto, ma sono preoccupato che il paragrafo centrale possa essere letto in un modo che confonde correlazione, indipendenza (di variabili casuali) e indipendenza funzionale (di una varietà di parametri). La distinzione correlazione-indipendenza è particolarmente importante da mantenere.
whuber

@whuber: ora va bene?
Biostat,

3
È corretto, ma il modo in cui usa i termini probabilmente confonderebbe alcune persone. Non distingue ancora esplicitamente la dipendenza di variabili casuali dalla dipendenza funzionale. Ad esempio, le due variabili in una distribuzione normale bivariata (non generata) con correlazione diversa da zero saranno dipendenti (come variabili casuali) ma offrono comunque due gradi di libertà.
whuber

5
Questo è stato copiato e incollato da un post reddit che ho realizzato nel 2009 .
Hobbs

2
Il nostro Centro assistenza fornisce una guida chiara su come fare riferimento al materiale scritto da altri , quindi spero che l'OP tornerà a questo post per intraprendere azioni appropriate e impegnarsi in interazioni costruttive (non lo vediamo da un po ', però).
chl

19

Mi piace molto la prima frase di The Little Handbook of Statistical Practice. Capitolo Gradi di libertà

Una delle domande che un istruttore teme maggiormente da un pubblico matematicamente poco sofisticato è: "Che cosa sono esattamente i gradi di libertà?"

Penso che puoi capire davvero bene i gradi di libertà leggendo questo capitolo.


6
Sarebbe bello avere una spiegazione del perché i gradi di libertà sono importanti, piuttosto che quello che è. Ad esempio, dimostrando che la stima della varianza con 1 / n è distorta ma l'utilizzo di 1 / (n-1) produce uno stimatore imparziale.
Tristan,

9

Wikipedia afferma che i gradi di libertà di un vettore casuale possono essere interpretati come le dimensioni del sottospazio vettore. Voglio fare un passo alla volta, fondamentalmente attraverso questo come una risposta parziale ed elaborazione sulla voce di Wikipedia.

L'esempio proposto è quello di un vettore casuale corrispondente alle misure di una variabile continua per diversi soggetti, espresso come vettore estende dall'origine . La sua proiezione ortogonale sul vettore risulta in un vettore uguale alla proiezione del vettore dei mezzi di misurazione ( ), cioè , punteggiato con il vettore , Questa proiezione sul sottospazio attraversata dal vettore di quelli hanno . Il vettore residuo (distanza dalla media) è la proiezione dei minimi quadrati su[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)tridimensionale complemento ortogonale di questo sottospazio e ha , essendo il numero totale di componenti del vettore (nel nostro caso poiché siamo in in l'esempio). Questo può essere semplicemente dimostrato ottenendo il prodotto punto di con la differenza tra e :n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0
.

E questa relazione si estende a qualsiasi punto in un piano ortogonale . Questo concetto è importante per capire perché , un passaggio nella derivazione della distribuzione t ( qui e qui ).[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

Prendiamo il punto , corrispondente a tre osservazioni. La media è , e il vettore è la normale (ortogonale) ad un piano, . Inserimento delle coordinate del punto nell'equazione del piano, .[355080]T55[555555]T55x+55y+55z=DD=9075

Ora possiamo scegliere qualsiasi altro punto in questo piano, e la media delle coordinate sarà , geometricamente corrispondente alla sua proiezione sul vettore . Quindi per ogni valore medio (nel nostro esempio, ) possiamo scegliere un numero infinito di coppie di coordinate in senza restrizioni ( ); tuttavia, poiché il piano è in , la terza coordinata verrà determinata dall'equazione del piano (o, geometricamente, dalla proiezione ortogonale del punto su .55[111]T55R22degrees of freedomR3[555555]T

Ecco la rappresentazione di tre punti (in bianco) che giace sul piano (blu ceruleo) ortogonale a (freccia): , e tutti sul piano (sottospazio con ) e quindi con una media dei loro componenti di e una proiezione ortogonale a (sottospazio con ) uguale a :[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

Nelle mie lezioni, utilizzo una situazione "semplice" che potrebbe aiutarti a chiederti e forse a sviluppare una sensazione viscerale per ciò che può significare un certo grado di libertà.

È una specie di approccio "Forrest Gump" all'argomento, ma vale la pena provare.

Considera di avere 10 osservazioni indipendenti che provengono proprio da una popolazione normale la cui media e varianza sono sconosciute.X1,X2,,X10N(μ,σ2)μσ2

Le tue osservazioni ti forniscono collettivamente informazioni sia su che . Dopotutto, le tue osservazioni tendono ad essere distribuite attorno a un valore centrale, che dovrebbe essere vicino al valore effettivo e sconosciuto di e, allo stesso modo, se è molto alto o molto basso, allora puoi aspettarti di vedere le tue osservazioni raccogliere intorno a un valore molto alto o molto basso rispettivamente. Un buon "sostituto" per (in assenza di conoscenza del suo valore reale) è , la media della tua osservazione. μσ2μμμX¯

Inoltre, se le tue osservazioni sono molto vicine tra loro, ciò indica che puoi aspettarti che debba essere piccolo e, allo stesso modo, se è molto grande, allora puoi aspettarti di vedere valori selvaggiamente diversi da a . σ2σ2X1X10

Se dovessi scommettere il salario della tua settimana su quali dovrebbero essere i valori effettivi di e , dovresti scegliere una coppia di valori in cui scommettere i tuoi soldi. Cerchiamo di non pensare a niente così drammatica come perdere il vostro stipendio a meno che non si indovina correttamente fino a 200 ° la sua posizione decimale. No. Pensiamo a una sorta di sistema di premi che più si avvicina a e più si viene premiati.μσ2μμσ2

In un certo senso, la vostra migliore, più informato, e indovinare più educato per valore 's potrebbe essere . In questo senso, si stima che deve essere un valore intorno a . Allo stesso modo, un buon "sostituto" per (non richiesto per ora) è , la varianza del tuo campione, che fa una buona stima per .μX¯μX¯σ2S2σ

Se dovessi credere che quei sostituti siano i valori effettivi di e , probabilmente sbaglieresti, perché molto poche sono le possibilità che tu sia stato così fortunato che le tue osservazioni si sono coordinate per procurarti il ​​dono di essendo uguale a e uguale a . No, probabilmente non è successo.μσ2X¯μS2σ2

Ma potresti essere a diversi livelli di errore, variando da un po 'sbagliato a davvero, davvero, davvero miseramente sbagliato (alias "Ciao ciao, busta paga; ci vediamo la prossima settimana!").

Ok, diciamo che hai preso come ipotesi per . Considera solo due scenari: e . Nel primo, le tue osservazioni sono piuttosto vicine e vicine. In quest'ultimo caso, le tue osservazioni variano notevolmente. In quale scenario dovresti preoccuparti maggiormente delle tue potenziali perdite? Se hai pensato al secondo, hai ragione. Avere una stima di cambia la tua fiducia sulla tua scommessa in modo molto ragionevole, per quanto più grande è , tanto più puoi aspettarti che cambi.X¯μS2=2S2=20,000,000σ2σ2X¯

Ma, al di là delle informazioni su e , le tue osservazioni portano anche una certa fluttuazione casuale pura che non è informativa né su né su . μσ2μσ2

Come puoi notarlo?

Bene, supponiamo, per amor di discussione, che esiste un Dio e che ha abbastanza tempo per darsi la frivolezza di dirti specificamente i valori reali (e finora sconosciuti) di entrambi e .μσ

Ed ecco il fastidioso colpo di scena di questa storia lisergica: te lo dice dopo aver piazzato la tua scommessa. Forse per illuminarti, forse per prepararti, forse per deriderti. Come hai potuto saperlo?

Bene, ciò rende ora inutili le informazioni su e contenute nelle tue osservazioni. La posizione centrale delle tue osservazioni e la varianza non sono più di alcun aiuto per avvicinarsi ai valori effettivi di e , perché già li conosci.μσ2X¯S2μσ2

Uno dei vantaggi della tua buona conoscenza di Dio è che in realtà sai da quanto non sei riuscito a indovinare correttamente usando , cioè tuo errore di stima.μX¯(X¯μ)

Bene, poiché , allora (fidati di me se vuoi), anche (ok, fidati anche di me su quello) e, infine, (indovina cosa? fidati di me anche in quello), che non porta assolutamente nessuna informazione su o .XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

Sai cosa? Se prendessi una qualsiasi delle tue singole osservazioni come ipotesi per , il tuo errore di stima verrebbe distribuito come . Bene, tra stimare con e qualsiasi , scegliere sarebbe un affare migliore, perché , quindi era meno incline a smarrirsi da rispetto a una singola .μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

Ad ogni modo, è assolutamente informativo su né .(Xiμ)/σN(0,1)μσ2

"Questa storia finirà mai?" potresti pensare. Potresti anche pensare "Esistono altre fluttuazioni casuali che non sono informative su e ?".μσ2

[Preferisco pensare che stai pensando a quest'ultimo.]

Si C'è!

Il quadrato del tuo errore di stima per con diviso per , ha una distribuzione Chi-quadrata, che è la distribuzione del quadrato di una normale normale , che sono sicuro che tu abbia notato assolutamente nessuna informazione su né , ma trasmette informazioni sulla variabilità che dovresti aspettarti di affrontare.μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

Questa è una distribuzione ben nota che deriva naturalmente dallo scenario del tuo problema di gioco per ciascuna delle tue dieci osservazioni e anche dalla tua media: e anche dalla raccolta della variazione delle tue dieci osservazioni: Ora quell'ultimo ragazzo non ha una distribuzione Chi-quadrato, perché è la somma di dieci di quelle distribuzioni Chi-quadrato, tutte indipendenti l'una dall'altra (perché lo sono anche

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Ognuna di quelle singole distribuzioni Chi-quadrate è un contributo alla quantità di variabilità casuale che dovresti aspettarti di affrontare, con approssimativamente la stessa quantità di contributo alla somma.

Il valore di ciascun contributo non è matematicamente uguale agli altri nove, ma tutti hanno lo stesso comportamento atteso nella distribuzione. In tal senso, sono in qualche modo simmetrici.

Ognuno di questi Chi-quadrati è un contributo alla quantità di variabilità pura e casuale che dovresti aspettarti in quella somma.

Se avessi 100 osservazioni, la somma sopra dovrebbe essere maggiore solo perché ha più fonti di contibutions .

Ognuna di quelle "fonti di contributo" con lo stesso comportamento può essere chiamata grado di libertà .

Ora fai uno o due passi indietro, rileggi i paragrafi precedenti, se necessario, per soddisfare l'improvviso arrivo del tuo grado di libertà ricercato .

Sì, ogni grado di libertà può essere considerato come un'unità di variabilità che si prevede obbligatoriamente che si verifichi e che non porta nulla al miglioramento dell'indovinare o .μσ2

Il fatto è che inizi a contare sul comportamento di quelle 10 fonti equivalenti di variabilità. Se avessi 100 osservazioni, avresti 100 fonti indipendenti equamente comportate di fluttuazione strettamente casuale a quella somma.

Quella somma di 10 quadrati Chi viene chiamata distribuzione Chi-quadrato con 10 gradi di libertà da ora in poi e scritta . Possiamo descrivere cosa aspettarsi da esso a partire dalla sua funzione di densità di probabilità, che può essere matematicamente derivata dalla densità di quella singola distribuzione Chi-quadrato (d'ora in poi chiamata distribuzione Chi-quadrato con un grado di libertà e scritta ), che può essere matematicamente derivato dalla densità della distribuzione normale.χ102χ12

"E allora?" --- potresti pensare --- "Questo è utile solo se Dio si è preso il tempo di dirmi i valori di e , di tutte le cose che potrebbe dirmi!"μσ2

In effetti, se Dio Onnipotente fosse troppo occupato per dirti i valori di e , avresti comunque quelle 10 fonti, quei 10 gradi di libertà.μσ2

Le cose iniziano a diventare strane (Hahahaha; solo ora!) Quando ti ribelli a Dio e cerchi di andare d'accordo da solo, senza aspettarti che Lui ti patrocini.

Hai e , stimatori per e . Puoi trovare la tua strada per una scommessa più sicura.X¯S2μσ2

Potresti considerare di calcolare la somma sopra con e nelle posizioni di e : ma questo è non uguale alla somma originale.X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

"Perchè no?" Il termine all'interno del quadrato di entrambe le somme è molto diverso. Ad esempio, è improbabile ma possibile che tutte le tue osservazioni finiscano per essere più grandi di , nel qual caso , che implica , ma, a sua volta, , perché . μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

Peggio ancora, puoi provare facilmente (Hahahaha; giusto!) Che con disuguaglianza rigorosa quando almeno due osservazioni sono diverse (il che non è insolito).i=110(XiX¯)2i=110(Xiμ)2

"Ma aspetta! C'è di più!" non ha distribuzione normale standard, non ha Distribuzione Chi-quadrato con un grado di libertà, non ha distribuzione Chi-quadrato con 10 gradi di libertà non ha distribuzione normale standard.

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"Era tutto per niente?"

Non c'è modo. Ora arriva la magia! Nota che o, equivalentemente,

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Ora torniamo a quei volti noti.

Il primo termine ha distribuzione Chi-quadrato con 10 gradi di libertà e l'ultimo termine ha distribuzione Chi-quadrato con un grado di libertà (!).

Abbiamo semplicemente diviso un Chi-quadrato con 10 fonti indipendenti di variabilità uguali in due parti, entrambe positive: una parte è un Chi-quadrato con una fonte di variabilità e l'altra che possiamo dimostrare (salto di fede? Vincere da WO? ) essere anche un Chi-quadrato con 9 (= 10-1) fonti di variabilità indipendenti equamente comportate, con entrambe le parti indipendenti l'una dall'altra.

Questa è già una buona notizia, poiché ora abbiamo la sua distribuzione.

Purtroppo, usa , a cui non abbiamo accesso (ricorda che Dio si sta divertendo a guardare la nostra lotta).σ2

Bene, quindi quindi che è una distribuzione che non è la normale standard, ma la cui densità può essere derivata dal densità dello standard normale e del Chi-quadrato con gradi di libertà.

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

Un ragazzo molto, molto intelligente, ha fatto quella matematica [^ 1] all'inizio del 20 ° secolo e, come conseguenza involontaria, ha reso il suo capo il leader mondiale assoluto nel settore della birra Stout. Sto parlando di William Sealy Gosset (aka studente; sì, quello studente, della distribuzione ) e Saint James's Gate Brewery (aka Guinness Brewery ), di cui sono un devoto.t

[^ 1]: @whuber ha detto nei commenti qui sotto che Gosset non ha fatto la matematica, ma ha indovinato invece! Non so davvero quale prodezza sia più sorprendente per quel tempo.

Questo, mio ​​caro amico, è l'origine della distribuzione con gradi di libertà. Il rapporto tra una normale normale e la radice quadrata di un Chi-quadrato indipendente diviso per i suoi gradi di libertà, che, in un imprevedibile giro di maree, finiscono per descrivere il comportamento atteso dell'errore di stima che si verifica quando si utilizza la media del campione per stimare e con per stimare la variabilità di .t(101)X¯μS2X¯

Ecco qua Con un sacco di dettagli tecnici spazzati via dietro il tappeto, ma non dipende esclusivamente dall'intervento di Dio di scommettere pericolosamente l'intera busta paga.


1
Grazie per questo sforzo! Confesso di aver trovato la tua spiegazione meno convincente, però. Sembra fondatore di questo incrocio cruciale: "Ognuna di quelle" fonti di contributi "con lo stesso comportamento può essere chiamata grado di libertà". Se invece avessi sommato variate normali indipendenti piuttosto che variate chi-quadrate indipendenti, finiresti con una variata normale. In qualche modo i "gradi di libertà" vengono completamente ingoiati. Evidentemente c'è qualcosa di speciale nel chi-quadrato che non hai ancora descritto. A proposito, Gosset non ha fatto la matematica: ha indovinato! 1010
whuber

Grazie mille per la tua valutazione, @whuber! È incredibile quanti errori di battitura compaiano dopo aver dimenticato ciò che hai scritto. Per quanto riguarda la tua valutazione, intendevo solo illustrare un altro modo di pensare: un po 'meno matematico in un certo senso. Inoltre, non sto comprendendo appieno ciò che intendevi con Se avessi invece sommato 10 variate normali indipendenti anziché 10 variate chi-quadrate indipendenti, finiresti con - una normale variazione - che immaginavo trattenere il tuo punto chiave . Proverò a elaborarlo, sperando di migliorare il post.
Marcelo Ventura,

2

Una spiegazione intuitiva dei gradi di libertà è che rappresentano il numero di informazioni indipendenti disponibili nei dati per stimare un parametro (cioè una quantità sconosciuta) di interesse .

Ad esempio, in un semplice modello di regressione lineare della forma:

Yi=β0+β1Xi+ϵi,i=1,,n

dove rappresentano termini di errore normalmente distribuiti indipendenti con media 0 e deviazione standard , utilizziamo 1 grado di libertà per stimare l'intercetta e 1 grado di libertà per stimare la pendenza . Da quando abbiamo iniziato con osservazioni e utilizzato fino a 2 gradi di libertà (ovvero, due informazioni indipendenti), ci rimangono gradi di libertà (ovvero, indipendenti) disponibili per stimare l'errore deviazione standard .ϵiσβ0β1nn2n2σ


Grazie mille per le tue modifiche alla mia risposta, @COOLSerdash!
Isabella Ghement

2

Puoi vedere il grado di libertà come il numero di osservazioni meno il numero di relazioni necessarie tra queste osservazioni. Ad esempio, se hai esempio di osservazioni di distribuzione normale indipendenti . La variabile casuale , dove . Il grado di libertà qui è perché, è una relazione necessaria tra queste osservazioni .nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

Per maggiori informazioni vedi questo


0

Per me la prima spiegazione che ho capito è stata:

Se conosci un valore statistico come media o variazione, quante variabili di dati devi conoscere prima di poter conoscere il valore di ogni variabile?

Questo è lo stesso di aL3xa, ma senza assegnare a nessun punto dati un ruolo speciale e vicino al terzo caso indicato nella risposta. In questo modo lo stesso esempio sarebbe:

Se si conosce la media dei dati, è necessario conoscere i valori per tutti i punti tranne uno, per conoscere il valore di tutti i punti.


Variabili -> osservazioni
Richard Hardy

0

Pensare in questo modo. Le variazioni sono additive quando indipendenti. Ad esempio, supponiamo stiamo gettando freccette verso un bordo e si misurano le deviazioni standard della ed spostamenti dal centro esatto del bordo. Quindi . Ma se prendiamo la radice quadrata della formula , otteniamo la formula della distanza per le coordinate ortogonali, . Ora tutto ciò che dobbiamo mostrare è che la deviazione standard è una misura rappresentativa dello spostamento dal centro del bersaglio per le freccette. Poiché , abbiamo un mezzo pronto per discutere di df. Si noti che quandoxyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1, quindi e il rapporto . In altre parole, non c'è deviazione da avere tra la coordinata una freccetta e se stessa. La prima volta che abbiamo una deviazione è per e ce n'è solo uno, un duplicato. Tale deviazione duplicata è la distanza quadrata tra o e perché è il punto medio tra o la media di e . In generale, per distanze rimuoviamo 1 perché dipende da tuttox1x¯=0 xn=2x1x2 ˉ x =x1+x2i=1n(xix¯)2n100xn=2x1x2 ˉ x x1x2n ˉ x nn-1x¯=x1+x22x¯x1x2nx¯n di quelle distanze. Ora, rappresenta i gradi di libertà perché si normalizza per il numero di risultati unici per fare una distanza quadrata prevista. quando diviso nella somma di quelle distanze quadrate.n1

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.