Perché la divergenza di KL non è negativa?


18

Perché la divergenza di KL non è negativa?

Dal punto di vista della teoria dell'informazione, ho una comprensione così intuitiva:

Supponiamo che ci siano due ensemble e che sono composti dallo stesso insieme di elementi etichettati da . e sono diverse distribuzioni di probabilità rispettivamente sull'ensemble eABxp(x)q(x)AB

Dalla prospettiva della teoria dell'informazione, è la quantità minima di bit quella necessaria per registrare un elemento per ensemble . In modo che l'attesa \ sum_ {x \ in ensemble} -p (x) \ ln (p (x)) possa essere interpretata come almeno quanti bit sono necessari per registrare un elemento in A in media.log2(P(x))xA

xensemblep(x)ln(p(x))
A

Poiché questa formula pone un limite inferiore sui bit di cui abbiamo bisogno in media, in modo che per un diverso ensemble B che determina una diversa distribuzione di probabilità q(x) , il limite che fornisce per ciascun elemento x sarà sicuramente bit che è dato da p(x) , che significa prendere le aspettative,

xensemblep(x)ln(q(x))
questa lunghezza media sarà sicuramente maggiore di quella precedente, che porta a
xensemblep(x)ln(p(x))ln(q(x))>0
Non inserisco qui da p(x) e q(x) sono diversi.

Questa è la mia comprensione intuitiva, esiste un modo puramente matematico per dimostrare che la divergenza di KL non è negativa? Il problema può essere dichiarato come:

Dato che p(X) e q(X) sono entrambi positivi sulla linea reale, e +p(x)dx=1 , +q(x)dx=1 . Dimostra

+p(x)lnp(x)q(x)
non è negativo.

Come può essere dimostrato? O questo può essere dimostrato senza condizioni extra?


1
Se capisci la prova della disuguaglianza di Fano è facile derivare la non negatività dell'entropia relativa.
Lerner Zhang,

Risposte:


30

Prova 1:

Prima nota che per tutti .a > 0lnaa1a>0

Ora mostreremo che che significa cheD K L ( p | | q ) 0DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

Per la disuguaglianza (a) abbiamo usato il disuguaglianza spiegato all'inizio.ln

In alternativa puoi iniziare con la disuguaglianza di Gibbs che afferma:

xp(x)log2p(x)xp(x)log2q(x)

Quindi se portiamo il termine sinistro a destra otteniamo:

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

Il motivo per cui non lo includo come prova separata è perché se dovessi chiedermi di provare la disuguaglianza di Gibbs, dovrei partire dalla non negatività della divergenza di KL e fare la stessa prova dall'alto.


Prova 2: Usiamo la disuguaglianza della somma dei log :

i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Quindi possiamo mostrare che : DKL(p||q)0

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

dove abbiamo usato la disuguaglianza della somma dei log in (b).


Prova 3:

(Tratto dal libro "Elements of Information Theory" di Thomas M. Cover e Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

dove at (c) abbiamo usato la disuguaglianza di Jensen e il fatto che è una funzione concava.log

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.