Potresti guardare il capitolo 3 di Devroye, Gyorfi e Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Vedi, in particolare, la sezione sulle divergenze.f
f -Divergenze possono essere viste come una generalizzazione di Kullback - Leibler (o, in alternativa, KL può essere visto come un caso speciale di una Divergenza).f
La forma generale è
Df(p,q)=∫q(x)f(p(x)q(x))λ(dx),
dove è una misura che domina le misure associate a e e è una funzione convessa che soddisfa . (Se e sono densità rispetto alla misura di Lebesgue, basta sostituire la notazione con e sei a posto.)λpqf(⋅)f(1)=0p(x)q(x)dxλ(dx)
Recuperiamo KL prendendo . Possiamo ottenere la differenza di Hellinger tramite e otteniamo la variazione totale o la distanza prendendo. Quest'ultimo dàf(x)=xlogxf(x)=(1−x−−√)2L1f(x)=12|x−1|
DTV(p,q)=12∫|p(x)−q(x)|dx
Nota che quest'ultimo ti dà almeno una risposta finita.
In un altro piccolo libro intitolato Stima della densità: The ViewL1 , Devroye sostiene con forza l'uso di quest'ultima distanza a causa delle sue belle proprietà di invarianza (tra le altre). Quest'ultimo libro è probabilmente un po 'più difficile da ottenere rispetto al primo e, come suggerisce il titolo, un po' più specializzato.
Addendum : tramite questa domanda , mi sono reso conto che sembra che la misura proposta da @Didier sia (fino a una costante) nota come la divergenza di Jensen-Shannon. Se segui il link alla risposta fornita in quella domanda, noterai che la radice quadrata di questa quantità è in realtà una metrica ed è stata precedentemente riconosciuta in letteratura come un caso speciale di una divergenza . Ho trovato interessante il fatto che sembra che abbiamo "reinventato" collettivamente la ruota (piuttosto rapidamente) attraverso la discussione di questa domanda. Anche l'interpretazione che ho dato nel commento sotto la risposta di @ Didier è stata precedentemente riconosciuta. Tutto intorno, un po 'pulito, in realtà.f