La divergenza di Kullback-Leibler non è una metrica propria, poiché non è simmetrica e, inoltre, non soddisfa la disuguaglianza del triangolo. Quindi i "ruoli" interpretati dalle due distribuzioni sono diversi ed è importante distribuire questi ruoli in base al fenomeno del mondo reale in fase di studio.
Quando scriviamo (l'OP ha calcolato l'espressione usando i logaritmi di base 2)
K ( P| | Q)= ∑iolog2(pio/qio)pio
consideriamo la distribuzione come la "distribuzione target" (generalmente considerata la vera distribuzione), che approssimiamo usando la QPQ distribuzione
Adesso,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
dove è l'entropia di Shannon di distribuzione P e - E P ( ln ( Q ) ) è chiamata "entropia incrociata di P e Q " -anche simmetrica.H(P)P−EP(ln(Q))PQ
scrittura
K(P||Q)=H(P,Q)−H(P)
(anche qui, l'ordine in cui scriviamo le distribuzioni nell'espressione dell'entropia incrociata è importante, poiché anch'esso non è simmetrico), ci consente di vedere che KL-Divergence riflette un aumento dell'entropia sull'inevitabile entropia della distribuzione .P
Quindi, no , la divergenza di KL è meglio non essere interpretata come una "misura della distanza" tra le distribuzioni, ma piuttosto come una misura di aumento dell'entropia dovuta all'uso di un'approssimazione alla vera distribuzione piuttosto che alla vera distribuzione stessa .
Quindi siamo nella terra della teoria dell'informazione. Per ascoltarlo dai maestri (Cover & Thomas) "
... se conoscessimo la vera distribuzione della variabile casuale, potremmo costruire un codice con la lunghezza media della descrizione H ( P ) . Se invece utilizzassimo il codice per una distribuzione Q , avremmo bisogno dei bit H ( P ) + K ( P | | Q ) sulla media per descrivere la variabile casuale.PH(P)QH(P)+K(P||Q)
Le stesse persone sagge dicono
... non è una vera distanza tra le distribuzioni poiché non è simmetrica e non soddisfa la disuguaglianza del triangolo. Tuttavia, è spesso utile pensare all'entropia relativa come una "distanza" tra le distribuzioni.
Ma quest'ultimo approccio è utile principalmente quando si tenta di minimizzare la divergenza di KL al fine di ottimizzare alcune procedure di stima. Per l'interpretazione del suo valore numerico di per sé , non è utile e si dovrebbe preferire l'approccio "aumento dell'entropia".
Per le specifiche distribuzioni della domanda (usando sempre i logaritmi di base 2)
K(P||Q)=0.49282,H(P)=1.9486
QP