Esiste uno stimatore imparziale della distanza di Hellinger tra due distribuzioni?


20

In un'impostazione in cui si osserva X1,,Xn distribuito da una distribuzione con densità f , mi chiedo se esiste uno stimatore imparziale (basato sulla Xi ) della distanza di Hellinger ad un'altra distribuzione con densità f0 , vale a dire

H(f,f0)={1Xf(x)f0(x)dx}1/2.

4
Quindi f0 è noto e risolto. Ma è noto o da una famiglia parametrica o lo sta facendo in un quadro non parametrico con tutto quello che sai su f proveniente dal tuo campione? Penso che faccia la differenza quando si tenta una risposta.
Michael R. Chernick,

3
@MichaelChernick: supponiamo che tutto ciò che sai di sia il campione X 1 , ... , X n . fX1,,Xn
Xi'an,

2
Non penso che sia stato calcolato (se esiste). Se esiste, allora AIC ha un fratello perduto.

4
Un attacco a questo problema sembra fattibile se si assume e f 0ff0 sono discreti. Ciò porta a uno stimatore ovvio (calcolare la distanza di Hellinger tra EDF e ). Il bootstrap (teoricamente, non tramite simulazione!) Ci darà una mano sui possibili pregiudizi e un modo per ridurre (o addirittura eliminare) i pregiudizi. Tendo qualche speranza di riuscire con la distanza al quadrato piuttosto che con la distanza stessa, perché è matematicamente più tracciabile. L'assunzione di una f discreta non è un problema nelle applicazioni; lo spazio di f discreta è comunque un sottoinsieme denso. f0ff
whuber

2
Mi viene in mente la prova di Rosenblatt che non esiste uno stimatore imparziale "in buona fede" di . Possiamo superarlo e ottenere uno stimatore senza limiti di H ( ff ? Non lo so. H(f,f0)
Zen,

Risposte:


5

Nessuno stimatore imparziale esiste H o di H 2 per f da qualsiasi classe di distribuzioni non parametrica ragionevolmente ampia.HH2f

Possiamo dimostrarlo con l'argomentazione meravigliosamente semplice di

Bickel e Lehmann (1969). Stima non distorta in famiglie convesse . The Annals of Mathematical Statistics, 40 (5) 1523-1535. ( progetto euclid )

Correggi alcune distribuzioni , F e G , con densità corrispondenti f 0 , f e g . Let H ( F ) denotano H ( f , f 0 ) , e lasciare che H ( X ) è un po 'estimatore di H ( F ) sulla base di n campioni iid X Il i ~ F .F0FGf0fgH(F)H(f,f0)H^(X)H(F)nXiF

Supponiamo che H è distorto per campioni da qualsiasi distribuzione del modulo M α : = α F + ( 1 - αH^ Ma poi Q ( α )

Mα:=αF+(1α)G.
cosicchéQ(α)deve essere un polinomio inαdi laurea al massimon.
Q(α)=H(Mα)=x1xnH^(X)dMα(x1)dMα(xn)=x1xnH^(X)[αdF(x1)+(1α)dG(x1)][αdF(xn)+(1α)dG(xn)]=αnEXFn[H^(X)]++(1α)nEXGn[H^(X)],
Q(α)αn

Ora, specializziamoci in un caso ragionevole e mostriamo che la corrispondente non è polinomiale.Q

Sia una distribuzione che abbia densità costante su [ - 1 , 1 ] : f 0 ( x ) = c per tutti | x | 1 . (Il suo comportamento al di fuori di questo intervallo non ha importanza.) Sia F una distribuzione supportata solo su [ - 1 , 0 ] e G una distribuzione supportata solo su [ 0 , 1 ] .F0[1,1]f0(x)=c|x|1F[1,0]G[0,1]

Ora doveBF:=R

Q(α)=H(mα,f0)=1Rmα(x)f0(x)dx=110cαf(x)dx01c(1α)g(x)dx=1αBF1αBG,
e così perBG. Si noti cheBF>0,BG>0per tutte le distribuzioniF,Gche hanno una densità.BF:=Rf(x)f0(x)dxBGBF>0BG>0FG

non è un polinomio di alcun grado finito. Pertanto, nessuna stimatore H può essere distorto perHsu tutte le distribuzioniMαcon un numero finito di campioni.1αBF1αBGH^HMα

Allo stesso modo, perché è anche un polinomio, non esiste uno stimatore per H 2che sia imparziale su tutte le distribuzioniMαcon finitamente molti campioni.1αBF1αBGH2Mα

Ciò esclude praticamente tutte le classi ragionevoli di distribuzioni non parametriche, ad eccezione di quelle con densità limitate al di sotto (ipotesi che talvolta non fanno analisi). Probabilmente potresti anche uccidere quelle classi con un argomento simile semplicemente rendendo costanti le densità o qualcosa del genere.


13

I don't know how to construct (if it exists) an unbiased estimator of the Hellinger distance. It seems possible to construct a consistent estimator. We have some fixed known density f0, and a random sample X1,,Xn from a density f>0. We want to estimate

H(f,f0)=1Xf(x)f0(x)dx=1Xf0(x)f(x)f(x)dx
=1E[f0(X)f(X)],
where Xf. By the SLLN, we know that
11ni=1nf0(Xi)f(Xi)H(f,f0),
almost surely, as n. Hence, a resonable way to estimate H(f,f0) would be to take some density estimator fn^ (such as a traditional kernel density estimator) of f, and compute
H^=11ni=1nf0(Xi)fn^(Xi).

3
@Zen: Good point! I consider this answer as the answer because it made me realise H sounds very much like a standard deviation, for which there exists no unbiased estimator. As for the variance of H^n2, no worries: E[(f0(X)/f(X))2]=1 implies that this estimator has a finite variance.
Xi'an

1
Thanks for the clarification about the variance of the estimator, Xi'an!
Zen

2
Some work on other consistent estimators: (a) arxiv.org/abs/1707.03083 and related work based on k-NN density estimators; (b) arxiv.org/abs/1402.2966 based on correcting kernel density estimates; (c) ieeexplore.ieee.org/document/5605355 based on a connection to classification. (Many of these are based on samples from both f and f0, because that's the work I knew about offhand, but I think there are variants for known f0.)
Dougal
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.