Jensen Shannon Divergence vs Kullback-Leibler Divergence?


14

So che KL Divergence non è simmetrica e non può essere considerata rigorosamente come una metrica. In tal caso, perché viene utilizzato quando JS Divergence soddisfa le proprietà richieste per una metrica?

Esistono scenari in cui è possibile utilizzare la divergenza KL ma non JS Divergence o viceversa?


Sono entrambi usati, solo dipende dal contesto. Quando è chiaro che è necessario disporre di una metrica rigorosa, ad esempio quando si esegue il clustering, allora JS è una scelta più preferibile. D'altra parte, nella selezione dei modelli l'uso di AIC basato su KL è molto diffuso. I pesi Akaike hanno una bella interpretazione per la quale JS non può fornire una controparte o deve ancora diventare popolare.
James,

Risposte:


5

Ho trovato una risposta molto matura sulla Quora e l'ho appena messa qui per le persone che la cercano qui:

La divergenza di Kullback-Leibler ha alcune belle proprietà, una delle quali è che tipo di regioni abhors in cui hanno massa non nulla e hanno massa nulla. Potrebbe sembrare un bug, ma in realtà è una funzionalità in determinate situazioni.𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

Se stai cercando di trovare approssimazioni per una distribuzione complessa (intrattabile) mediante una distribuzione approssimativa (trattabile) vuoi essere assolutamente sicuro che qualsiasi 𝑥 che sarebbe molto improbabile sia tratto da sarebbe anche molto improbabile essere tratto da . Che KL abbia questa proprietà è facilmente mostrato: c'è un nell'integrando. Quando 𝑞 (𝑥) è piccolo ma non lo è, va bene. Ma quando è piccolo, questo cresce molto rapidamente se non è anche piccolo. Quindi, se scegli per ridurre a icona𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝], è molto improbabile che assegnerà molta massa alle regioni in cui è vicino allo zero.𝑞(𝑥)𝑝(𝑥)

La divergenza di Jensen-Shannon non ha questa proprietà. Si comporta bene sia quando che sono piccoli. Ciò significa che non penalizzerà tanto una distribuzione da cui è possibile campionare valori impossibili in .𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

La divergenza di KL ha una chiara interpretazione teorica delle informazioni ed è ben nota; ma sono la prima volta che apprendo che la simmetrizzazione della divergenza di KL si chiama divergenza di JS. Il motivo per cui la divergenza JS non viene utilizzata così spesso è probabilmente che è meno noto e non offre proprietà indispensabili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.