Cos'è Hellinger Distance e quando usarlo?


19

Sono interessato a sapere cosa succede realmente in Hellinger Distance (in termini semplici). Inoltre, sono anche interessato a sapere quali sono i tipi di problemi che possiamo usare Hellinger Distance? Quali sono i vantaggi dell'utilizzo di Hellinger Distance?


9
La distanza di Hellinger è un analogo probabilistico della distanza euclidea. Una proprietà saliente è la sua simmetria, come metrica. Tali proprietà matematiche sono utili se stai scrivendo un documento e hai bisogno di una funzione di distanza che possiede determinate proprietà per rendere possibile la tua prova. Nell'applicazione, qualcuno potrebbe scoprire che una metrica produce risultati migliori o migliori di un'altra per un determinato compito; ad es., la distanza di Wasserstein è di gran moda nelle reti generative dell'avversario
Emre,

Grazie per il commento. Mi sono imbattuto in questa domanda, che è abbastanza simile alla domanda che ho ora. datascience.stackexchange.com/questions/22324/… Per favore fatemi sapere, perché la risposta dice che Hellinger Distance è adatto?
Smith Volka,

2
Probabilmente per visualizzare gli argomenti in uno spazio metrico. Un'altra proprietà interessante è che la distanza di Hellinger è limitata per le distribuzioni con supporto diverso. È positivo che tu stia ponendo queste domande. Ti suggerisco di provare metriche diverse per te stesso e di osservare i risultati.
Emre,

Grazie. è un buon collegamento. aiuta molto. Ma la distanza di Hellinger è limitata solo agli argomenti derivati ​​dalla Latent Dirichlet Allocation (LDA) come indicato nel link?
Smith Volka,

1
No, non ha alcuna connessione intrinseca a LDA.
Emre,

Risposte:


7

La distanza di Hellinger è una metrica per misurare la differenza tra due distribuzioni di probabilità. È l'analogo probabilistico della distanza euclidea .

PQ

h(P,Q)=12PQ2

È utile per quantificare la differenza tra due distribuzioni di probabilità. Ad esempio, se si stima una distribuzione per utenti e non utenti di un servizio. Se la distanza di Hellinger è piccola tra quei gruppi per alcune funzioni, tali funzioni non sono statisticamente utili per la segmentazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.