Perché la divergenza di KL non è negativa?
Dal punto di vista della teoria dell'informazione, ho una comprensione così intuitiva:
Supponiamo che ci siano due ensemble e che sono composti dallo stesso insieme di elementi etichettati da . e sono diverse distribuzioni di probabilità rispettivamente sull'ensemble e
Dalla prospettiva della teoria dell'informazione, è la quantità minima di bit quella necessaria per registrare un elemento per ensemble . In modo che l'attesa \ sum_ {x \ in ensemble} -p (x) \ ln (p (x)) possa essere interpretata come almeno quanti bit sono necessari per registrare un elemento in A in media.
Poiché questa formula pone un limite inferiore sui bit di cui abbiamo bisogno in media, in modo che per un diverso ensemble che determina una diversa distribuzione di probabilità , il limite che fornisce per ciascun elemento sarà sicuramente bit che è dato da , che significa prendere le aspettative,
Questa è la mia comprensione intuitiva, esiste un modo puramente matematico per dimostrare che la divergenza di KL non è negativa? Il problema può essere dichiarato come:
Dato che e sono entrambi positivi sulla linea reale, e , . Dimostra
Come può essere dimostrato? O questo può essere dimostrato senza condizioni extra?