I concetti statistici e matematici sono esattamente gli stessi, comprendendo che "famiglia" è un termine matematico generico con variazioni tecniche adattate alle diverse circostanze:
Una famiglia parametrica è una curva (o superficie o altra sua generalizzazione a dimensione finita) nello spazio di tutte le distribuzioni.
Il resto di questo post spiega cosa significa. A parte questo, non penso che nulla di tutto ciò sia controverso, né matematicamente né statisticamente (a parte un problema minore che si nota di seguito). A sostegno di questa opinione ho fornito molti riferimenti (principalmente agli articoli di Wikipedia).
Questa terminologia di "famiglie" tende ad essere usata quando si studiano le classi delle funzioni in un insieme Y o "mappe". Dato un dominio X , una famiglia F di mappe su X parametrizzata da un set Θ (i "parametri") è una funzioneCYYX FX Θ
F:X×Θ→Y
per cui (1) per ogni , la funzione F θ : X → Y data da F θ ( x ) = F ( x , θ ) è in C Y e (2) F stessa ha alcune proprietà "belle".θ∈ΘFθ:X→YFθ(x)=F(x,θ)CYF
L'idea è che vogliamo variare le funzioni da a Y in modo "regolare" o controllato. Proprietà (1) significa che ogni θ designa una tale funzione, mentre i dettagli della proprietà (2) cattureranno il senso in cui un cambiamento "piccolo" in θ induce un cambiamento sufficientemente "piccolo" in F θ .XYθθFθ
Un esempio matematico standard, vicino a quello menzionato nella domanda, è un'omotopia . In questo caso è la categoria di mappe continue dagli spazi topologici X allo spazio topologico Y ; Θ = [ 0 , 1 ] ⊂ R rappresenta l'intervallo unitario con la consueta topologia, e si richiede che F sia una continua mappa dal prodotto topologico X × Θ in Y . Può essere considerata una "deformazione continua della mappa FCY XYΘ=[0,1]⊂RFX×ΘY a F 1. "Quando X = [ 0 , 1 ] è esso stesso un intervallo, tali mappe sonocurvein Y e l'omotopia è una deformazione regolare da una curva all'altra.F0F1X=[0,1]Y
Per applicazioni statistiche, è l'insieme di tutte le distribuzioni su R (o, in pratica, su R n per alcuni n , ma per mantenere semplice l'esposizione mi concentrerò su n = 1 ). Possiamo identificare con l'insieme di tutti non decrescente Funzione Càdlàg funzioni R → [ 0 , 1 ] in cui la chiusura della loro gamma comprende sia 0 e 1 : queste sono le funzioni di distribuzione cumulativa, o semplicemente funzioni di distribuzione. Pertanto, X = RCYRRnnn=1R→[0,1]01X=R e .Y=[0,1]
Una famiglia di distribuzioni è qualsiasi sottoinsieme di . CY Un altro nome per una famiglia è modello statistico. Consiste in tutte le distribuzioni che supponiamo governino le nostre osservazioni, ma non sappiamo altrimenti quale distribuzione sia quella effettiva.
- Una famiglia può essere vuota.
- stessa è una famiglia.CY
- Una famiglia può essere costituita da un'unica distribuzione o solo da un numero finito di esse.
Queste caratteristiche astratte set-teoriche sono di scarso interesse o utilità. È solo quando consideriamo la struttura matematica aggiuntiva (rilevante) su che questo concetto diventa utile. Ma quali proprietà di C Y sono di interesse statistico? Alcuni che compaiono frequentemente sono:CYCY
è uninsieme convesso: date due distribuzioni F , G ∈ C Y , possiamo formare ladistribuzionedellamiscela(1-t) F +t G ∈Yper tuttet∈[0,1]. Si tratta di una sorta di "homotopy" daFaG.CYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG
Grandi parti di supportano varie pseudo metriche, come la divergenza di Kullback-Leibler o la metrica di Fisher Information strettamente correlata.CY
ha una struttura additivo: corrispondente a qualsiasi due distribuzioniFeGè la loro somma, F ⋆ G .CYFGF⋆G
supporta molte funzioni utili e naturali, spesso definite "proprietà". Questi includono qualsiasi quantile fisso (come la mediana) e icumulativi.CY
è un sottoinsieme di unospazio funzionale. Come tale, eredita molte metriche utili, come lasup norma( L ∞ norma) data da | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Naturali azioni di gruppo su inducono azioni su C Y . Le azioni più comuni sono traduzioni T μ : x → x + μ e ridimensionamenti S σ : x → x σ per σ > 0 . L'effetto che questi hanno su una distribuzione è di inviare F alla distribuzione data da F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Questi portano ai concetti di famiglie su scala locale e alle loro generalizzazioni. (Non fornisco un riferimento, perché ampie ricerche sul Web rivelano una varietà di definizioni diverse: qui, almeno, potrebbe esserci un po 'di controversia.)Fμ,σ(x)=F((x−μ)/σ)
Le proprietà che contano dipendono dal problema statistico e da come si intende analizzare i dati. Affrontare tutte le variazioni suggerite dalle caratteristiche precedenti richiederebbe troppo spazio per questo mezzo. Concentriamoci su un'applicazione importante comune.
Prendi, ad esempio, la massima verosimiglianza. Nella maggior parte delle applicazioni, sarà possibile utilizzare Calculus per ottenere un preventivo. Perché questo funzioni, devi essere in grado di "prendere derivati" in famiglia.
( Tecnica a parte: Il solito modo in cui questo viene ottenuto è quello di selezionare un dominio per d ≥ 0 e specificare un continuo, localmente invertibile funzione p da Θ in C Y (Questo significa che per ogni. Θ ∈ Θ lì esiste una palla B ( θ , ϵ ) , con ϵ > 0 per cui p ∣ B ( θ , ϵ ) BΘ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 è uno a uno. In altre parole, se alteriamo θ di una quantità sufficientemente piccola otterremo sempre una distribuzione diversa.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
Di conseguenza, nella maggior parte delle applicazioni ML richiediamo che sia continuo (e si spera, quasi ovunque differenziabile) nella componente Θ . (Senza continuità, massimizzare la probabilità generalmente diventa un problema irrisolvibile.) Ciò porta alla seguente definizione orientata alla probabilità di una famiglia parametrica :pΘ
Una famiglia parametrica di distribuzioni (univariate) è una mappa localmente invertibile con Θ ⊂ R n , per cui (a) ogni F θ è una funzione di distribuzione e (b) per ogni x ∈ R , la funzione L x : θ → [ 0 , 1 ] data da L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) è continuo e quasi ovunque differenziabile.
Si noti che una famiglia parametrica è molto più di un semplice insieme di F θ : include anche il modo specifico in cui i valori dei parametri θ corrispondono alle distribuzioni.FFθθ
Finiamo con alcuni esempi illustrativi.
Sia l'insieme di tutte le distribuzioni normali. Come dato, questa non è una famiglia parametrica: è solo una famiglia. Per essere parametrici, dobbiamo scegliere una parametrizzazione. Un modo è scegliere Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
e mappare ( μ , σ ) alla distribuzione normale con media μ
e varianza σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
L'insieme di Poisson distribuzioni(λ) è una famiglia parametrica con .λ∈Θ=(0,∞)⊂R1
L'insieme delle distribuzioni Uniform (che è prominente in molti esercizi da manuale) è una famiglia parametrica con
θ ∈ R 1 . In questo caso, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) è differenziabile in θ ad eccezione di
θ ∈ { x , x - 1 } .(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ−F(x)+G(x)
The Pearson family is a four-dimensional family, Θ⊂R4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.
The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:Θ→CY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.