Analisi della divergenza di Kullback-Leibler


18

Consideriamo le seguenti due distribuzioni di probabilità

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Ho calcolato la divergenza di Kullback-Leibler che è uguale a 0.492820258 , voglio sapere in generale cosa mi mostra questo numero? Generalmente, la divergenza di Kullback-Leibler mi mostra quanto è distante una distribuzione di probabilità da un'altra, giusto? È simile alla terminologia dell'entropia, ma in termini di numeri, cosa significa? Se ho un risultato di 0,49, posso dire che circa una distribuzione è lontana da un'altra del 50%?


Vedi la discussione qui che può essere di aiuto.
Glen_b -Restate Monica

Hai letto l'articolo di Wikipedia?
Neil G

Risposte:


42

La divergenza di Kullback-Leibler non è una metrica propria, poiché non è simmetrica e, inoltre, non soddisfa la disuguaglianza del triangolo. Quindi i "ruoli" interpretati dalle due distribuzioni sono diversi ed è importante distribuire questi ruoli in base al fenomeno del mondo reale in fase di studio.

Quando scriviamo (l'OP ha calcolato l'espressione usando i logaritmi di base 2)

K(P||Q)=Σiolog2(pio/qio)pio

consideriamo la distribuzione come la "distribuzione target" (generalmente considerata la vera distribuzione), che approssimiamo usando la QPQ distribuzione

Adesso,

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

dove è l'entropia di Shannon di distribuzione P e - E P ( ln ( Q ) ) è chiamata "entropia incrociata di P e Q " -anche simmetrica.H(P)PEP(ln(Q))PQ

scrittura

K(P||Q)=H(P,Q)H(P)

(anche qui, l'ordine in cui scriviamo le distribuzioni nell'espressione dell'entropia incrociata è importante, poiché anch'esso non è simmetrico), ci consente di vedere che KL-Divergence riflette un aumento dell'entropia sull'inevitabile entropia della distribuzione .P

Quindi, no , la divergenza di KL è meglio non essere interpretata come una "misura della distanza" tra le distribuzioni, ma piuttosto come una misura di aumento dell'entropia dovuta all'uso di un'approssimazione alla vera distribuzione piuttosto che alla vera distribuzione stessa .

Quindi siamo nella terra della teoria dell'informazione. Per ascoltarlo dai maestri (Cover & Thomas) "

... se conoscessimo la vera distribuzione della variabile casuale, potremmo costruire un codice con la lunghezza media della descrizione H ( P ) . Se invece utilizzassimo il codice per una distribuzione Q , avremmo bisogno dei bit H ( P ) + K ( P | | Q ) sulla media per descrivere la variabile casuale.PH(P)QH(P)+K(P||Q)

Le stesse persone sagge dicono

... non è una vera distanza tra le distribuzioni poiché non è simmetrica e non soddisfa la disuguaglianza del triangolo. Tuttavia, è spesso utile pensare all'entropia relativa come una "distanza" tra le distribuzioni.

Ma quest'ultimo approccio è utile principalmente quando si tenta di minimizzare la divergenza di KL al fine di ottimizzare alcune procedure di stima. Per l'interpretazione del suo valore numerico di per sé , non è utile e si dovrebbe preferire l'approccio "aumento dell'entropia".

Per le specifiche distribuzioni della domanda (usando sempre i logaritmi di base 2)

K(P||Q)=0.49282,H(P)=1.9486

QP


Risposta estremamente utile e istruttiva.
MadHatter,

1

KL Divergence misura la perdita di informazioni richiesta per rappresentare un simbolo da P usando simboli da Q. Se hai un valore di 0.49 significa che in media puoi codificare due simboli da P con i due simboli corrispondenti da Q più un bit di informazioni extra .


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.