La divergenza di KL è un modo naturale per misurare la differenza tra due distribuzioni di probabilità. L'entropia di una distribuzione p fornisce il numero minimo possibile di bit per messaggio che sarebbero necessari (in media) per codificare senza perdita di eventi estratti da p . Il raggiungimento di questo limite richiederebbe l'utilizzo di un codice ottimale progettato per p , che assegna parole di codice più brevi a eventi di probabilità più elevata. D K L ( p ∥ q ) può essere interpretato come il numero previsto di bit aggiuntivi per messaggio necessari per codificare eventi estratti dalla distribuzione reale pH( p )pppDKL( P ∥ q)p, se si utilizza un codice ottimale per la distribuzione anziché p . Ha alcune belle proprietà per confrontare le distribuzioni. Ad esempio, se p e q sono uguali, allora la divergenza KL è 0.qppq
L'entropia crociata può essere interpretata come il numero di bit per messaggio necessario (in media) per codificare eventi estratti dalla vera distribuzione p , se si utilizza un codice ottimale per la distribuzione q . Nota la differenza: D K L ( p ∥ q ) misura il numero medio di bit extra per messaggio, mentre H ( p , q ) misura il numero medio di bit totali per messaggio. È vero che, per p fisso , H ( pH( p , q)pqDKL( P ∥ q)H( p , q)p crescerà man mano che q diventerà sempre più diversa da p . Ma, se p non viene mantenuto fisso, è difficile interpretare H ( p , q ) come una misura assoluta della differenza, perché cresce con l'entropia di p .H( p , q)qppH( p , q)p
La divergenza di KL e l'entropia incrociata sono correlate come:
DKL( P ∥ q) = H( p , q) - H( p )
Possiamo vedere da questa espressione che, quando e q sono uguali, l'entropia croce non è zero; piuttosto, è uguale all'entropia di p .pqp
L'entropia incrociata si manifesta comunemente nelle funzioni di perdita nell'apprendimento automatico. In molte di queste situazioni, viene considerata come la distribuzione "vera" e q come il modello che stiamo cercando di ottimizzare. Ad esempio, nei problemi di classificazione, la perdita di entropia incrociata comunemente usata (nota anche come perdita di log ), misura l'entropia incrociata tra la distribuzione empirica delle etichette (dati gli input) e la distribuzione prevista dal classificatore. La distribuzione empirica per ciascun punto dati assegna semplicemente la probabilità 1 alla classe di quel punto dati e 0 a tutte le altre classi. Nota a margine: l'entropia crociata in questo caso risulta essere proporzionale alla probabilità di log negativa, quindi minimizzarla equivale a massimizzare la probabilità.pq
Si noti che (la distribuzione empirica in questo esempio) è fissa. Quindi, sarebbe equivalente a dire che stiamo minimizzando la divergenza di KL tra la distribuzione empirica e la distribuzione prevista. Come possiamo vedere nell'espressione sopra, i due sono collegati dal termine additivo H ( p ) (l'entropia della distribuzione empirica). Poiché p è fisso, H ( p )pH( p )pH( p )non cambia con i parametri del modello e può essere ignorato nella funzione di perdita. Potremmo ancora voler parlare della divergenza di KL per ragioni teoriche / filosofiche ma, in questo caso, sono equivalenti dal punto di vista della risoluzione del problema di ottimizzazione. Questo potrebbe non essere vero per altri usi dell'entropia incrociata e della divergenza di KL, dove potrebbe variare.p
pqDKL( P ∥ q)pqj ∣ ipj ∣ i è la divergenza di Kullback-Leibler (che in questo caso è uguale all'entropia crociata fino a una costante additiva). "
van der Maaten e Hinton (2008) . Visualizzazione dei dati mediante t-SNE.