Che cos'è esattamente una distribuzione?


16

Conosco pochissime probabilità e statistiche e desidero imparare. Vedo la parola "distribuzione" usata in tutto il luogo in contesti diversi.

Ad esempio, una variabile casuale discreta ha una "distribuzione di probabilità". So di cosa si tratta. Una variabile casuale continua ha una funzione di densità di probabilità, quindi per xR , l'integrale da a x della funzione di densità di probabilità è la funzione di distribuzione cumulativa valutata in x .

E apparentemente solo "funzione di distribuzione" è sinonimo di "funzione di distribuzione cumulativa", almeno quando si parla di variabili casuali continue (domanda: sono sempre sinonimi?).

Poi ci sono molte famose distribuzioni. Γ distribuzione distribuzione, ecc. Ma cos'è esattamente una distribuzione ? È la funzione di distribuzione cumulativa di una variabile casuale ? O la funzione di densità di probabilità di una variabile casuale ?χ2ΓΓΓ

Ma poi una distribuzione di frequenza di un set di dati finito sembra essere un istogramma.

Per farla breve: in Probabilità e Statistica, qual è la definizione della parola "distribuzione"?

Conosco la definizione di distribuzione in matematica (un elemento del doppio spazio della raccolta di funzioni di test dotate della topologia del limite induttivo), ma non di probabilità e statistica.


1
L'articolo di Wikipedia corrispondente sembra essere una buona introduzione all'argomento.
Aleksandr Blekh,

1
In senso stretto, "distribuzione" e "cdf" dovrebbero essere considerati sinonimi, ma "distribuzione" è spesso usata in un senso molto più ampio e spesso viene usata per riferirsi effettivamente a una densità / pmf.
Glen_b

3
La tua comprensione di una distribuzione è abbastanza vicina a quella in probabilità; la differenza principale è che quelli in probabilità godono di alcune proprietà aggiuntive (di essere positivo e normalizzato all'unità). La connessione è che la tua definizione stabilisce una distribuzione in termini di operatore di aspettativa associato. C'è anche un (grave) abuso del linguaggio prevalente nelle statistiche, che definisce anche una famiglia di distribuzioni parametrizzata una "distribuzione". Infine, qualsiasi set di dati finito determina una distribuzione ottenuta campionando da essa, la sua "distribuzione empirica".
whuber

@whuber Questo aiuta, grazie in particolare, l'abuso del linguaggio. Sarebbe come chiamare l'integrale indefinito di una funzione ... una funzione.
danzibr,

Una domanda simile con buone risposte: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

Risposte:


7

Quanto segue è per casuali variabili valutate. L'estensione ad altri spazi è semplice se sei interessato. Direi che la seguente definizione leggermente più generale è più intuitiva rispetto a considerare separatamente le funzioni di densità, massa e distribuzione cumulativa.R

Includo alcuni termini matematici / probabilistici nel testo per renderlo corretto. Se non si ha familiarità con questi termini, l'intuizione è ugualmente ben afferrata dal solo pensare agli "insiemi di Borel" come a "qualsiasi sottoinsieme di che mi viene in mente", e alla variabile casuale a il risultato numerico di un esperimento con un probabilità associata.R


Let uno spazio di probabilità e X ( ω ) un R - valore variabile casuale in questo spazio.(Ω,F,P)X(ω)R

La funzione set , in cui A è un insieme Borel, è detta distribuzione di X .Q(A):=P(ωΩ:X(ω)A)AX

In parole, la distribuzione ti dice (parlando in senso lato), per ogni sottoinsieme di , la probabilità che X abbia un valore in quell'insieme. Si può dimostrare che Q è completamente determinato dalla funzione F ( x ) : = P ( X x ) e viceversa. Per fare ciò - e salto i dettagli qui - costruisci una misura sugli insiemi di Borel che assegnano la probabilità F ( x ) a tutti gli insiemi ( - , x ) e sostengono che questa misura finita concorda con Q su unRXQF(x):=P(Xx)F(x)(,x)Q sistema che genera il Borel σ - algebra.πσ

In tal caso, può essere scritto come Q ( A ) = A f ( x ) d x quindi f è una funzione di densità per Q e puoi vedere, sebbene questa densità non sia determinata in modo univoco (considera le modifiche su insiemi di Lebesgue misura zero), ha senso anche parlare di f come distribuzione di X . Di solito, però, noi lo chiamiamo la funzione di densità di probabilità di X .Q(A)Q(A)=Af(x)dxfQfXX

Allo stesso modo, se succede che può essere scritto come Q ( A ) = i A { , - 1 , 0 , 1 , } f ( i ) , allora ha senso parlare di f come distribuzione di X sebbene di solito la chiamiamo funzione di massa di probabilità.Q(A)Q(A)=iA{,1,0,1,}f(i)fX

Pertanto, ogni volta che leggi qualcosa come " segue una distribuzione uniforme su [ 0 , 1 ] ", significa semplicemente che la funzione Q ( A ) , che ti dice la probabilità che X assuma valori in determinati insiemi, è caratterizzata dal funzione di densità di probabilità f ( x ) = I [ 0 , 1 ] o funzione di distribuzione cumulativa F ( x ) = x - f ( t )X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

Un'ultima nota sul caso in cui non si fa menzione di una variabile casuale, ma solo di una distribuzione. Si potrebbe dimostrare che data una funzione di distribuzione (o una funzione di distribuzione di massa, densità o cumulativa), esiste uno spazio di probabilità con una variabile casuale che ha questa distribuzione. Pertanto, non vi è sostanzialmente alcuna differenza nel parlare di una distribuzione o di una variabile casuale che ha quella distribuzione. È solo una questione di concentrazione.


3

Sia uno spazio di probabilità, sia ( X , B ) uno spazio misurabile e sia X : Ω X una funzione misurabile, il che significa che X - 1 ( B ) = { ω : X ( ω ) B } F per ogni B B . La distribuzione di X è la misura di probabilità μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB X sopra ( X , B ) definito da μ X ( B ) = P ( X B ) . Quando X = R e B è il campo sigma di Borel, ci riferiamo alla funzione X come una "variabile" casuale.μX(X,B)μX(B)=P(XB)X=RBX


1
deve essere molto chiaro per le persone con scarsa conoscenza delle probabilità e delle statistiche :)
Alexey Grigorev,

3
Bene, l'OP sembra conoscere elementi matematici avanzati come "elemento del doppio spazio della raccolta di funzioni di test dotate della topologia del limite induttivo". Controlla la fine della sua domanda.
Zen,

2
È stata davvero una buona risposta per me. Avevo bisogno di controllare la definizione di uno spazio di probabilità, ma per una persona con un background matematico, era chiaro. Ho apprezzato la concisione della risposta, non solo accettandola a causa dei dettagli nell'altra risposta.
danzibr,

1

La domanda e le risposte finora sembrano essersi concentrate su distribuzioni teoriche. Le distribuzioni empiriche forniscono una comprensione più intuitiva delle distribuzioni.

Esempio

Durante un torneo di classe a saltare la corda osserviamo tutti i bambini in una corda da salto di classe. Il primo bambino è in grado di saltare due volte, il secondo quattro volte, il successivo quindici volte, ecc. Registriamo il numero di salti. Cinque dei bambini hanno saltato otto volte ciascuno, ma solo uno dei due ha saltato due volte. Diciamo che saltare otto volte è distribuito in modo diverso rispetto al saltare due volte.

Una definizione ostensiva per una distribuzione osservata è la frequenza delle occorrenze per ciascun valore osservato di una variabile.

Nelle statistiche inferenziali cerchiamo quindi di adattare le distribuzioni teoriche alle distribuzioni osservate, perché vorremmo lavorare con i presupposti delle distribuzioni teoriche. È possibile raggiungere una definizione simile per le distribuzioni teoriche sostituendo "osservato" con "osservabile" o per essere più precisi: "previsto".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.