Differenze tra distanza di Bhattacharyya e divergenza di KL


33

Sto cercando una spiegazione intuitiva per le seguenti domande:

Nella statistica e nella teoria dell'informazione, qual è la differenza tra la distanza di Bhattacharyya e la divergenza di KL, come misure della differenza tra due distribuzioni di probabilità discrete?

Non hanno assolutamente relazioni e misurano la distanza tra due distribuzioni di probabilità in modo totalmente diverso?

Risposte:


36

Il coefficiente di Bhattacharyya è definito come

DB(p,q)=p(x)q(x)dx
e può essere trasformato in una distanzadH(p,q) come
dH(p,q)={1DB(p,q)}1/2
che si chiama ladistanza Hellinger. Una connessione tra questadistanza di Hellingere ladivergenza di Kullback-Leiblerè
dKL(pq)2dH2(p,q)=2{1DB(p,q)}.

Tuttavia, questa non è la domanda: se la distanza di Bhattacharyya è definita come

dB(p,q)=deflogDB(p,q),
allora
dB(p,q)=logDB(p,q)=logp(x)q(x)dx=deflogh(x)dx=logh(x)p(x)p(x)dxlog{h(x)p(x)}p(x)dx=12log{h2(x)p2(x)}p(x)dx=12log{q(x)p(x)}p(x)dx=12dKL(pq)
Quindi, la disuguaglianza tra le due distanze sono
dKL(pq)2dB(p,q).
Ci si potrebbe quindi chiedere se questa disuguaglianza derivi dalla prima. Capita di essere l'opposto: since
log(x)1x0x1,
inserisci qui la descrizione dell'immagine

abbiamo l'ordine completo

dKL(pq)2dB(p,q)2dH(p,q)2.

2
Brillante! Questa spiegazione dovrebbe essere quella che sto cercando con impazienza. Un'ultima domanda: in quale caso (o che tipo di P e Q) la disuguaglianza diventerà uguaglianza?
JewelSue,

1
Dato che la funzione è strettamente convessa, suppongo che l'unico caso di uguaglianza sia quando il rapporto è costante in . log()p(x)/q(x)x
Xi'an,

5
E l'unico caso in cui è costante in è quando . p(x)/q(x)xp=q
Xi'an,

8

Non conosco alcuna relazione esplicita tra i due, ma ho deciso di dare una rapida occhiata a loro per vedere cosa avrei potuto trovare. Quindi questa non è molto una risposta, ma più un punto di interesse.

Per semplicità, lavoriamo su distribuzioni discrete. Possiamo scrivere la distanza BC come

dBC(p,q)=lnx(p(x)q(x))12

e la divergenza KL come

dKL(p,q)=xp(x)lnp(x)q(x)

Ora non possiamo inserire il registro all'interno della somma sulla distanza , quindi proviamo a trascinare il registro all'esterno della divergenza :BCKL

dKL(p,q)=lnx(q(x)p(x))p(x)

Consideriamo il loro comportamento quando è fissato come distribuzione uniforme su possibilità:pn

dKL(p,q)=lnnln(xq(x))1ndBC(p,q)=ln1nlnxq(x)

A sinistra, abbiamo il registro di qualcosa che è simile nella forma alla media geometrica . A destra, abbiamo qualcosa di simile al registro della media aritmetica . Come ho detto, questa non è una grande risposta, ma penso che dia un'intuizione chiara di come la distanza BC e la divergenza KL reagiscono alle deviazioni tra e .pq

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.