Divergenza di Kullback-Leibler SENZA teoria dell'informazione


23

Dopo molte ricerche su Cross Validated, non mi sento ancora più vicino alla comprensione della divergenza di KL al di fuori del regno della teoria dell'informazione. È piuttosto strano come qualcuno con un background matematico per trovare molto più facile capire la spiegazione della teoria dell'informazione.

Per delineare la mia comprensione da un background di teoria dell'informazione: se abbiamo una variabile casuale con un numero finito di risultati, esiste una codifica ottimale che ci consente di comunicare il risultato con qualcun altro con in media il messaggio più breve (lo trovo più facile da immagine in termini di bit). La lunghezza prevista del messaggio che sarebbe necessario comunicare il risultato è data da

-Σαpαlog2(pα)
se si utilizza la codifica ottimale. Se dovessi utilizzare una codifica non ottimale, allora la divergenza di KL ci dice in media quanto tempo sarebbe il nostro messaggio.

Mi piace questa spiegazione, perché si occupa in modo abbastanza intuitivo dell'asimmetria della divergenza di KL. Se abbiamo due sistemi diversi, cioè due monete caricate che sono caricate in modo diverso, avranno codifiche ottimali diverse. In qualche modo non ho istintivamente la sensazione che l'uso della codifica del secondo sistema per il primo sia "ugualmente negativo" rispetto all'utilizzo della codifica del primo sistema per il secondo. Senza passare attraverso il processo di pensiero di come mi sono convinto, ora sono abbastanza felice che

Σαpα(log2qα-log2pα)
ti dia questa "lunghezza di messaggio extra prevista", quando usi la codifica per .pqp

Tuttavia, la maggior parte delle definizioni della divergenza di KL, tra cui Wikipedia, fanno quindi l'affermazione (mantenendola in termini discreti in modo che possa essere confrontata con l'interpretazione della teoria dell'informazione che funziona molto meglio in termini discreti poiché i bit sono discreti) che se abbiamo due probabilità discrete distribuzioni, poi KL fornisce alcune metriche di "quanto sono diverse". Devo ancora vedere una singola spiegazione di come questi due concetti siano addirittura correlati. Mi sembra di ricordare nel suo libro sull'inferenza, Dave Mackay fa notare come la compressione e l'inferenza dei dati siano sostanzialmente la stessa cosa, e sospetto che la mia domanda sia realmente correlata a questo.

Indipendentemente dal fatto che sia o meno, il tipo di domanda che ho in mente riguarda i problemi di inferenza. (Mantenendo le cose discrete), se abbiamo due campioni radioattivi, e sappiamo che uno di questi è un certo materiale con radioattività nota (questa è una fisica dubbia ma facciamo finta che l'universo funzioni così) e quindi conosciamo la "vera" distribuzione dei clic radioattivi che dovremmo misurare dovrebbe essere poissoniano con noto , è giusto costruire una distribuzione empirica per entrambi i campioni e confrontare le loro divergenze di KL con la distribuzione nota e dire che il più basso è più probabile che sia quel materiale?λ

Allontanandosi dalla fisica dubbia, se so che due campioni sono estratti dalla stessa distribuzione ma so che non sono selezionati casualmente, il confronto delle loro divergenze KL con la distribuzione globale nota mi darebbe un'idea di "quanto distorti" siano i campioni , rispetto all'una e all'altra comunque?

E infine, se la risposta alle domande precedenti è sì, allora perché? È possibile capire queste cose da un punto di vista statistico da solo senza fare collegamenti (forse tenui) alla teoria dell'informazione?


1
Vedi la mia risposta qui: stats.stackexchange.com/questions/188903/… che non fa riferimento alla teoria dell'informazione
kjetil b halvorsen

1
La divergenza di KL non è puramente un concetto teorico dell'informazione? So che fornisce le informazioni reciproche tra un priore e un posteriore bayesiano o qualcosa del genere, e ricordo di averlo visto una volta nel contesto delle trasformazioni / coniugate di Fenchel (teoria della grande deviazione), ma in ogni caso ho pensato che fosse un concetto teorico dell'informazione .
Chill2Macht,

Risposte:


23

Esiste un approccio puramente statistico alla divergenza di Kullback-Leibler: prendere un campione iid da una distribuzione sconosciuta p e considerare l'adattamento potenziale di una famiglia di distribuzioni, F = { p θX1,...,Xnp La probabilità corrispondente è definita come L ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) e il suo logaritmo è ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i )

F={pθ, θΘ}
L(θ|X1,...,Xn)=Πio=1npθ(Xio)
(θ|X1,...,Xn)=Σio=1nlogpθ(Xio)
Pertanto, che è la parte interessante della divergenza di Kullback-Leibler tra p θ e p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|X1,...,Xn)E[logpθ(X)]=logpθ(X)p(X)dX
pθp l'altra parte log { p ( x ) }
H(pθ|p)=DEFlog{p(X)/pθ(X)}p(X)dX
essere lì per avere il minimo [in θ ] di H ( p θ | p ) uguale a zero.
log{p(X)}p(X)dX
θH(pθ|p)

Un libro che collega divergenza, teoria dell'informazione e inferenza statistica è la stima ottimale dei parametri di Rissanen , che ho esaminato qui .


Qualche possibilità di vedere un esempio numerico di questo?
Paul Uszak,

Bene, intendo vedere alcuni numeri reali. La teoria è carina ma il mondo scorre sui numeri. Non ci sono esempi di divergenze di KL che usano numeri reali, quindi sono attratto dalla conclusione che si tratta di una teoria senza alcuna possibile applicazione. L'OP ha discusso della lunghezza dei messaggi in bit e della compressione dei dati. Mi riferivo a qualsiasi esempio che
contenesse

2
@PaulUszak: se ti dico che la distanza di Kullaback-Leibler tra una distribuzione N (0,1) e una N (1,1) è 1/2, come può essere d'aiuto?
Xi'an,

2
@ Xi'an: deve esserci una connessione tra quel numero 1/2 e la potenza del test del rapporto di verosimiglianza corrispondente?
kjetil b halvorsen,

7
+1 Riguardo al thread dei commenti: la mente oscilla al pensiero che qualsiasi concetto che non può essere ridotto a un "numero di bit" è inutile.
whuber

8

Ecco un'interpretazione statistica della divergenza di Kullback-Leibler, liberamente presa da IJ Good ( Peso dell'evidenza: un breve sondaggio , Bayesian Statistics 2, 1985).

Il peso delle prove.

X1,X2,...,Xnf0H1H2f0H1={f1}H2={f2}f0f1f2

X=(X1,...,Xn)H1H2

W(X)=logf1(X)f2(X).
PH0H1W
logP(H0|X)P(H1|X)=W(X)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

La divergenza di Kullback-Leibler

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.

1

Devo ancora vedere una singola spiegazione di come questi due concetti siano addirittura correlati.

Non so molto sulla teoria dell'informazione, ma è così che ci penso: quando sento una persona della teoria dell'informazione dire "lunghezza del messaggio", il mio cervello dice "sorpresa". La sorpresa è 1.) casuale e 2.) soggettiva.

Xq(X)-logq(X)

qXppEp[-logp(X)]qpEp[-logq(X)]

Invece di pensare a "quanto sono diversi" Penso all'aumento della sorpresa attesa dall'uso della distribuzione sbagliata ". Questo è tutto dalle proprietà del logaritmo.

Ep[log(p(X)q(X))]=Ep[-logq(X)]-Ep[-logp(X)]0.

modificare

-log(q(X))q

XqX0-log(0)=10

-log

q(X)>1

X~qX(X)Y=un'X+B~qX((y-B)/un')|1/un'|X-logqX(X)-logqY(Y)

(X-EX)2

Modifica 2: sembra che non sia l'unico a pensare a questo come a "sorpresa". Da qui :

yθ-2log{p(y|θ)}


1
-log(q(X))q

1
Sia la trasformata T ( X ) = a X , a TT(X)=un'Xun'0TT(X)XT(X)X-logqT(X)(T(X))>-logqX(X)

(X-E[X])2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.