Definizione di famiglia di una distribuzione?


14

Una famiglia di una distribuzione ha una definizione diversa per la statistica rispetto ad altre discipline?

In generale, una famiglia di curve è un insieme di curve, ognuna delle quali è data da una funzione o parametrizzazione in cui uno o più parametri sono variati. Tali famiglie vengono utilizzate, ad esempio, per caratterizzare i componenti elettronici .

Per le statistiche, una famiglia secondo una fonte è il risultato della variazione del parametro di forma. Come possiamo quindi capire che la distribuzione gamma ha un parametro di forma e scala e solo la distribuzione gamma generalizzata ha, inoltre, un parametro di posizione? Ciò rende la famiglia il risultato della variazione del parametro location? Secondo @whuber il significato di una famiglia è implicitamente Una "parametrizzazione" di una famiglia è una mappa continua da un sottoinsieme di ℝ n , con la sua solita topologia, nello spazio delle distribuzioni, la cui immagine è quella famiglia.n

Che cos'è, in un linguaggio semplice, una famiglia per distribuzioni statistiche?

Una domanda sulle relazioni tra le proprietà statistiche delle distribuzioni della stessa famiglia ha già generato notevoli polemiche per una domanda diversa quindi vale la pena esplorarne il significato.

Che questa non sia necessariamente una semplice domanda nasce dal suo uso nella frase famiglia esponenziale , che non ha nulla a che fare con una famiglia di curve, ma è correlata alla modifica della forma del PDF di una distribuzione mediante riparametrizzazione non solo dei parametri , ma anche la sostituzione di funzioni di variabili casuali indipendenti.


1
Con il termine "famiglia di una distribuzione", intendi qualcos'altro "una famiglia di distribuzioni"? Una famiglia esponenziale è una famiglia di distribuzioni (con determinate proprietà) e, interpretando il pdf di ogni distribuzione come una curva, corrisponde anche a una famiglia di curve, quindi gli ultimi paragrafi sembrano confusi.
Juho Kokkala,

@JuhoKokkala Sembra confuso perché il significato di "famiglia" dipende dal contesto. Ad esempio, una normale distribuzione di media sconosciuta e varianza nota è nella famiglia esponenziale. Una distribuzione normale ha un supporto infinito, e una distribuzione esponenziale ha un supporto semi-infinito, [ 0 , + ) , quindi non esiste una famiglia di curve per una distribuzione esponenziale che copre l'intervallo di una normale distribuzione, non hanno mai la stessa forma ...(,+)[0,+)
Carl

@JuhoKokkala ... e un PDF esponenziale non ha nemmeno un parametro location, mentre una normale distribuzione non può farne a meno. Vedi il link sopra per le sostituzioni necessarie e il contesto in cui un normale pdf è nella famiglia esponenziale.
Carl,

1
stats.stackexchange.com/questions/129990/… può essere pertinente. "la distribuzione normale di media sconosciuta e la varianza nota è nella famiglia esponenziale" è, per quanto ne sappia, abuso di terminologia (sebbene in qualche modo comune). Per essere precisi, una famiglia esponenziale è una famiglia di distribuzioni con determinate proprietà. La famiglia di distribuzioni normali con media sconosciuta e varianza nota è una famiglia esponenziale; la famiglia delle distribuzioni esponenziali è un'altra famiglia esponenziale, ecc.
Juho Kokkala,

1
@JuhoKokkala: Quella "famiglia" è così comunemente usata (ab), in un caso speciale, per indicare "insieme di famiglie" vale forse la pena tirar fuori un'altra risposta. (Non riesco a pensare ad altri casi - per qualche ragione sembra di incline a parlare di "nessuno della famiglia posizione scala".)
Ripristinare Monica - Scortchi

Risposte:


14

I concetti statistici e matematici sono esattamente gli stessi, comprendendo che "famiglia" è un termine matematico generico con variazioni tecniche adattate alle diverse circostanze:

Una famiglia parametrica è una curva (o superficie o altra sua generalizzazione a dimensione finita) nello spazio di tutte le distribuzioni.

Il resto di questo post spiega cosa significa. A parte questo, non penso che nulla di tutto ciò sia controverso, né matematicamente né statisticamente (a parte un problema minore che si nota di seguito). A sostegno di questa opinione ho fornito molti riferimenti (principalmente agli articoli di Wikipedia).


Questa terminologia di "famiglie" tende ad essere usata quando si studiano le classi delle funzioni in un insieme Y o "mappe". Dato un dominio X , una famiglia F di mappe su X parametrizzata da un set Θ (i "parametri") è una funzioneCYYX FX Θ

F:X×ΘY

per cui (1) per ogni , la funzione F θ : X Y data da F θ ( x ) = F ( x , θ ) è in C Y e (2) F stessa ha alcune proprietà "belle".θΘFθ:XYFθ(x)=F(x,θ)CYF

L'idea è che vogliamo variare le funzioni da a Y in modo "regolare" o controllato. Proprietà (1) significa che ogni θ designa una tale funzione, mentre i dettagli della proprietà (2) cattureranno il senso in cui un cambiamento "piccolo" in θ induce un cambiamento sufficientemente "piccolo" in F θ .XYθθFθ

Un esempio matematico standard, vicino a quello menzionato nella domanda, è un'omotopia . In questo caso è la categoria di mappe continue dagli spazi topologici X allo spazio topologico Y ; Θ = [ 0 , 1 ] R rappresenta l'intervallo unitario con la consueta topologia, e si richiede che F sia una continua mappa dal prodotto topologico X × Θ in Y . Può essere considerata una "deformazione continua della mappa FCY XYΘ=[0,1]RFX×ΘY a F 1. "Quando X = [ 0 , 1 ] è esso stesso un intervallo, tali mappe sonocurvein Y e l'omotopia è una deformazione regolare da una curva all'altra.F0F1X=[0,1]Y

Per applicazioni statistiche, è l'insieme di tutte le distribuzioni su R (o, in pratica, su R n per alcuni n , ma per mantenere semplice l'esposizione mi concentrerò su n = 1 ). Possiamo identificare con l'insieme di tutti non decrescente Funzione Càdlàg funzioni R[ 0 , 1 ] in cui la chiusura della loro gamma comprende sia 0 e 1 : queste sono le funzioni di distribuzione cumulativa, o semplicemente funzioni di distribuzione. Pertanto, X = RCYRRnnn=1R[0,1]01X=R e .Y=[0,1]

Una famiglia di distribuzioni è qualsiasi sottoinsieme di . CY Un altro nome per una famiglia è modello statistico. Consiste in tutte le distribuzioni che supponiamo governino le nostre osservazioni, ma non sappiamo altrimenti quale distribuzione sia quella effettiva.

  • Una famiglia può essere vuota.
  • stessa è una famiglia.CY
  • Una famiglia può essere costituita da un'unica distribuzione o solo da un numero finito di esse.

Queste caratteristiche astratte set-teoriche sono di scarso interesse o utilità. È solo quando consideriamo la struttura matematica aggiuntiva (rilevante) su che questo concetto diventa utile. Ma quali proprietà di C Y sono di interesse statistico? Alcuni che compaiono frequentemente sono:CYCY

  1. è uninsieme convesso: date due distribuzioni F , G C Y , possiamo formare ladistribuzionedellamiscela(1-t) F +t GYper tuttet[0,1]. Si tratta di una sorta di "homotopy" daFaG.CYF,GCY (1t)F+tGYt[0,1]FG

  2. Grandi parti di supportano varie pseudo metriche, come la divergenza di Kullback-Leibler o la metrica di Fisher Information strettamente correlata.CY

  3. ha una struttura additivo: corrispondente a qualsiasi due distribuzioniFeGè la loro somma, F G .CYFGFG

  4. supporta molte funzioni utili e naturali, spesso definite "proprietà". Questi includono qualsiasi quantile fisso (come la mediana) e icumulativi.CY

  5. è un sottoinsieme di unospazio funzionale. Come tale, eredita molte metriche utili, come lasup norma( L norma) data da | | F-G | | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Naturali azioni di gruppo su inducono azioni su C Y . Le azioni più comuni sono traduzioni T μ : x x + μ e ridimensionamenti S σ : x x σ per σ > 0 . L'effetto che questi hanno su una distribuzione è di inviare F alla distribuzione data da F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:xx+μ Sσ:xxσσ>0F . Questi portano ai concetti di famiglie su scala locale e alle loro generalizzazioni. (Non fornisco un riferimento, perché ampie ricerche sul Web rivelano una varietà di definizioni diverse: qui, almeno, potrebbe esserci un po 'di controversia.)Fμ,σ(x)=F((xμ)/σ)

Le proprietà che contano dipendono dal problema statistico e da come si intende analizzare i dati. Affrontare tutte le variazioni suggerite dalle caratteristiche precedenti richiederebbe troppo spazio per questo mezzo. Concentriamoci su un'applicazione importante comune.

Prendi, ad esempio, la massima verosimiglianza. Nella maggior parte delle applicazioni, sarà possibile utilizzare Calculus per ottenere un preventivo. Perché questo funzioni, devi essere in grado di "prendere derivati" in famiglia.

( Tecnica a parte: Il solito modo in cui questo viene ottenuto è quello di selezionare un dominio per d 0 e specificare un continuo, localmente invertibile funzione p da Θ in C Y (Questo significa che per ogni. Θ Θ lì esiste una palla B ( θ , ϵ ) , con ϵ > 0 per cui p B ( θ , ϵ ) BΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0 è uno a uno. In altre parole, se alteriamo θ di una quantità sufficientemente piccola otterremo sempre una distribuzione diversa.))pB(θ,ϵ):B(θ,ϵ)ΘCYθ

Di conseguenza, nella maggior parte delle applicazioni ML richiediamo che sia continuo (e si spera, quasi ovunque differenziabile) nella componente Θ . (Senza continuità, massimizzare la probabilità generalmente diventa un problema irrisolvibile.) Ciò porta alla seguente definizione orientata alla probabilità di una famiglia parametrica :pΘ

Una famiglia parametrica di distribuzioni (univariate) è una mappa localmente invertibile con Θ R n , per cui (a) ogni F θ è una funzione di distribuzione e (b) per ogni x R , la funzione L x : θ [ 0 , 1 ] data da L x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) è continuo e quasi ovunque differenziabile.

Si noti che una famiglia parametrica è molto più di un semplice insieme di F θ : include anche il modo specifico in cui i valori dei parametri θ corrispondono alle distribuzioni.FFθθ

Finiamo con alcuni esempi illustrativi.

  • Sia l'insieme di tutte le distribuzioni normali. Come dato, questa non è una famiglia parametrica: è solo una famiglia. Per essere parametrici, dobbiamo scegliere una parametrizzazione. Un modo è scegliere Θ = { ( μ , σ ) R 2σ > 0 } e mappare ( μ , σ ) alla distribuzione normale con media μ e varianza σ 2 .CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • L'insieme di Poisson distribuzioni(λ) è una famiglia parametrica con .λΘ=(0,)R1

  • L'insieme delle distribuzioni Uniform (che è prominente in molti esercizi da manuale) è una famiglia parametrica con θ R 1 . In questo caso, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) è differenziabile in θ ad eccezione di θ { x , x - 1 } .(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]FθF(x)+G(x)

  • The Pearson family is a four-dimensional family, ΘR4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.

  • The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:ΘCY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.


2
It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.
Carl

(+1) OK, I slogged through it. So is F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P), where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.