Intuitivamente, perché l'entropia incrociata è una misura della distanza di due distribuzioni di probabilità?


11

Per due distribuzioni discrete e , l'entropia incrociata è definita comepq

H(p,q)=-ΣXp(X)logq(X).

Mi chiedo perché questa sarebbe una misura intuitiva della distanza tra due distribuzioni di probabilità?

Vedo che è l'entropia di , che misura la "sorpresa" di . è la misura che sostituisce parzialmente con . Non capisco ancora il significato intuitivo dietro la definizione.H(p,p)ppH(p,q)pq


1
Ti consiglio di cercare la definizione matematica di metrica (e distanza). di solito, seguire quelle proprietà è la cosa minima che una funzione dovrebbe seguire perché è una distanza. Spero che sia d'aiuto. Anche se sembra . Intuitivamente, poiché è una funzione che fa parte della divergenza di KL, la suppongo una sorta di divergenza di p e q compensata dall'entropia p. Tuttavia, è solo una supposizione. Inoltre, la divergenza non è una metrica / distanza, quindi sarei sorpreso se Cross Entropy lo è. H(p,q)=H(p)+DKL(p||q)
Charlie Parker,

Quindi comprendere la divergenza di Kullback_leibler aiuta a capire l'entropia incrociata: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

1
Ecco un ottimo video che spiega KL Divergence in modo chiaro e semplice: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen,

Vedi se questo "Intuition behind Cross Entropy" aiuta: medium.com/@siddharth.4oct/…
Siddharth Roy,

Risposte:


6

Ridurre al minimo l'entropia incrociata è spesso usato come obiettivo di apprendimento nei modelli generativi in ​​cui p è la vera distribuzione e q è la distribuzione appresa.

L'entropia crociata di p e q è uguale all'entropia di p più la divergenza KL tra p e q.

H(p,q)=H(p)+DKL(p||q)

Puoi considerare come una costante perché p deriva direttamente dai dati di addestramento e non viene appreso dal modello. Quindi, solo il termine di divergenza KL è importante. La motivazione per la divergenza di KL come distanza tra le distribuzioni di probabilità è che ti dice quanti bit di informazione si ottengono usando la distribuzione p invece dell'approssimazione q.H(p)p

Si noti che la divergenza KL non è una metrica della distanza corretta. Per prima cosa, non è simmetrico in p e q. Se hai bisogno di una metrica della distanza per le distribuzioni di probabilità dovrai usare qualcos'altro. Ma se stai usando la parola "distanza" in modo informale, puoi usare la divergenza KL.


1
perché puoi pensare a p come una costante? Cosa stai imparando"? q? La domanda originale non diceva nulla sull'apprendimento, quindi sarei interessato a capire meglio cosa intendevi :)
Charlie Parker

2
modificato per renderlo più chiaro. p è la distribuzione che deriva dai dati di addestramento e q viene appreso dal modello.
Aaron,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.