Pro della distanza Jeffries Matusita


11

Secondo alcuni articoli che sto leggendo, la distanza di Jeffries e Matusita è comunemente usata. Ma non sono riuscito a trovare molte informazioni su di esso ad eccezione della formula seguente

JMD (x, y) =(xi2yi2)22

È simile alla distanza euclidea ad eccezione della radice quadrata

E (x, y) =(xiyi)22

La distanza JM è considerata più affidabile della distanza euclidea in termini di classificazione. Qualcuno può spiegare perché questa differenza rende migliore la distanza JM?


1
Non riesco a trovare un riferimento autorevole che utilizza questa formula per la distanza Jeffries-Matusita. Le formule che trovo si basano su matrici di covarianza per due classi e sembrano non avere alcuna relazione con quella data qui, ma sembra che possano esserci due (o più) cose diverse conosciute con questo nome. Potresti fornire un riferimento o (ancora meglio) un link? A proposito, e contano per caso? (Se è così, c'è un'interpretazione naturale della tua formula.)xiyi
whuber

1
@whuber: forse il ed sono stare a exyp(x)q(x)
user603

@ user603 Sì, penso che tu l'abbia ottenuto. Ora le connessioni con le divergenze di KL e la misura di Battacharyya diventano evidenti.
whuber

Risposte:


14

Alcune differenze chiave, che precedono una spiegazione più lunga di seguito, sono che:

  1. Fondamentalmente: la distanza Jeffries-Matusita si applica alle distribuzioni, piuttosto che ai vettori in generale.
  2. La formula della distanza JM citata sopra si applica solo ai vettori che rappresentano distribuzioni di probabilità discrete (cioè vettori che si sommano a 1).
  3. A differenza della distanza euclidea, la distanza JM può essere generalizzata a qualsiasi distribuzione per la quale sia possibile formulare la distanza di Bhattacharrya.
  4. La distanza JM ha, attraverso la distanza Bhattacharrya, un'interpretazione probabilistica.

La distanza Jeffries-Matusita, che sembra essere particolarmente popolare nella letteratura del telerilevamento, è una trasformazione della distanza Bhattacharrya (una misura popolare della dissomiglianza tra due distribuzioni, indicata qui come ) dall'intervallo all'intervallo fisso :bp,q[0,inf)[0,2]

JMp,q=2(1exp(b(p,q))

Un vantaggio pratico della distanza JM, secondo questo documento è che questa misura "tende a sopprimere valori di separabilità elevati, pur sottolineando eccessivamente valori di separabilità bassi".

La distanza di Bhattacharrya misura la dissomiglianza di due distribuzioni e nel seguente senso astratto continuo: Se le distribuzioni e vengono catturati da istogrammi, rappresentato da vettori unità di lunghezza (dove -esimo elemento è il conteggio normalizzato per esimo bidoni) questo diventa: E di conseguenza la distanza JM per i due istogrammi è: Che, notando che per gli istogrammi normalizzatipq

b(p,q)=lnp(x)q(x)dx
pqiiN
b(p,q)=lni=1Npiqi
JMp,q=2(1i=1Npiqi)
ipi=1, è uguale alla formula che hai indicato sopra:
JMp,q=i=1N(piqi)2=i=1N(pi2piqi+qi)=2(1i=1Npiqi)

+1 Mille grazie per esserti tuffato e aver fatto questo sforzo molto ben fatto per chiarire la situazione.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.