Un adattamento della distanza Kullback-Leibler?


28

Guarda questa immagine: inserisci qui la descrizione dell'immagine

Se si estrae un campione dalla densità del rosso, alcuni valori dovrebbero essere inferiori a 0,25, mentre è impossibile generare un campione del genere dalla distribuzione blu. Di conseguenza, la distanza di Kullback-Leibler dalla densità rossa alla densità blu è infinito. Tuttavia, le due curve non sono così distinte, in un certo senso "naturale".

Ecco la mia domanda: esiste un adattamento della distanza di Kullback-Leibler che consentirebbe una distanza finita tra queste due curve?


1
In quale "senso naturale" queste curve "non sono così distinte"? In che modo questa vicinanza intuitiva è collegata a qualsiasi proprietà statistica? (Posso pensare a diverse risposte, ma mi chiedo che cosa hai in mente.)
whuber

1
Bene ... sono piuttosto vicini l'uno all'altro, nel senso che entrambi sono definiti su valori positivi; entrambi aumentano e poi diminuiscono; entrambi hanno effettivamente le stesse aspettative; e la distanza di Kullback Leibler è "piccola" se ci limitiamo a una parte dell'asse x ... Ma per collegare queste nozioni intuitive a qualsiasi proprietà statistica, avrei bisogno di una definizione rigorosa per queste caratteristiche ...
ocram

Risposte:


18

Potresti guardare il capitolo 3 di Devroye, Gyorfi e Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Vedi, in particolare, la sezione sulle divergenze.f

f -Divergenze possono essere viste come una generalizzazione di Kullback - Leibler (o, in alternativa, KL può essere visto come un caso speciale di una Divergenza).f

La forma generale è

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

dove è una misura che domina le misure associate a e e è una funzione convessa che soddisfa . (Se e sono densità rispetto alla misura di Lebesgue, basta sostituire la notazione con e sei a posto.)λpqf()f(1)=0p(x)q(x)dxλ(dx)

Recuperiamo KL prendendo . Possiamo ottenere la differenza di Hellinger tramite e otteniamo la variazione totale o la distanza prendendo. Quest'ultimo dàf(x)=xlogxf(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Nota che quest'ultimo ti dà almeno una risposta finita.

In un altro piccolo libro intitolato Stima della densità: The ViewL1 , Devroye sostiene con forza l'uso di quest'ultima distanza a causa delle sue belle proprietà di invarianza (tra le altre). Quest'ultimo libro è probabilmente un po 'più difficile da ottenere rispetto al primo e, come suggerisce il titolo, un po' più specializzato.


Addendum : tramite questa domanda , mi sono reso conto che sembra che la misura proposta da @Didier sia (fino a una costante) nota come la divergenza di Jensen-Shannon. Se segui il link alla risposta fornita in quella domanda, noterai che la radice quadrata di questa quantità è in realtà una metrica ed è stata precedentemente riconosciuta in letteratura come un caso speciale di una divergenza . Ho trovato interessante il fatto che sembra che abbiamo "reinventato" collettivamente la ruota (piuttosto rapidamente) attraverso la discussione di questa domanda. Anche l'interpretazione che ho dato nel commento sotto la risposta di @ Didier è stata precedentemente riconosciuta. Tutto intorno, un po 'pulito, in realtà.f


1
Molto bella! Cercherò di trovare "Una teoria probabilistica del riconoscimento dei modelli" e di capirne il capitolo 3!
Ocram,

1
buona risposta, nota che il più delle volte è definito in un altro modo che lo rende metà della distanza . DTVL1
Robin Girard,

1
@robin, grazie per il tuo commento. Sì, me ne rendo conto. Stavo solo cercando di evitare una costante estranea disordinata nell'esposizione. Ma, a rigore, hai ragione. L'ho aggiornato di conseguenza.
cardinale il

3
Il tuo addendum è l'informazione più utile che ho incontrato su stats.SE, finora. Tutti i miei più sentiti ringraziamenti per questo. Riporto semplicemente qui il riferimento che hai dato: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres e Schindelin, una nuova metrica per le distribuzioni di probabilità, IEEE Trans. su Info. Tuo. , vol. 49, n. 3, luglio 2003, pagg. 1858-1860.
Ha fatto il

1
@Didier, beh, è ​​stato più un felice incidente che altro. Nessuno stava rispondendo all'altra domanda, quindi ho deciso di provare a capire quale fosse la Divergenza di Jensen-Shannon in primo luogo. Una volta trovata la definizione, mi è sembrato ragionevole collegare le due domande tramite il mio addendum. Sono contento che l'abbia trovato utile. Saluti.
cardinale

19

La divergenza di Kullback-Leibler di rispetto a è infinita quando non è assolutamente continuo rispetto a , cioè quando esiste un insieme misurabile tale che e . Inoltre la divergenza di KL non è simmetrica, nel senso che in generale . Ricorda che Una via d'uscita da entrambi questi inconvenienti, ancora basata sulla divergenza di KL, è introdurre il punto medio Quindiκ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)

κ(PQ)=Plog(PQ).
R=12(P+Q).
Rè una misura di probabilità, e e sono sempre assolutamente continua rispetto alla . Quindi si può considerare una "distanza" tra e , ancora basata sulla divergenza di KL ma usando , definita come Quindi è non negativo e finito per ogni e , è simmetrico, nel senso che per ogni e e sse .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

Una formulazione equivalente è

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Addendum 1 L'introduzione del punto medio di e non è arbitraria nel senso che dove il minimo è oltre l'insieme delle misure di probabilità.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Addendum 2 @cardinal osserva che è anche una divergenza, per la funzione convessa ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco, @Didier Piau, si potrebbe notare che il suggerimento di @ Didier è un altro caso speciale di una divergenza in cui . ff(x)=xlogx(1+x)log(1+x2)
cardinale

1
@Marco, @Didier Piau, una formulazione alternativa che ha una natura evocativa è e così dove . In altre parole, è "differenza tra l'entropia della misura media e il entropia media delle misure ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
cardinale

3
Non è solo la divergenza tra Jensen e Shannon?
Memming


"dove il minimo è oltre l'insieme delle misure di probabilità." Mi piace questa caratterizzazione della divergenza tra Jensen e Shannon. Ne esiste una prova da qualche parte?
user76284

10

La distanza di Kolmogorov tra due distribuzioni e è la norma suprema dei loro CDF. (Questa è la più grande discrepanza verticale tra i due grafici dei CDF.) Viene utilizzata nei test distributivi in ​​cui è una distribuzione ipotizzata e è la funzione di distribuzione empirica di un set di dati.PQPQ

È difficile caratterizzarlo come un "adattamento" della distanza KL, ma soddisfa gli altri requisiti di essere "naturale" e finito.

Per inciso, poiché la divergenza KL non è una vera "distanza", non dobbiamo preoccuparci di preservare tutte le proprietà assiomatiche di una distanza. Possiamo mantenere la proprietà non negatività rendendo i valori finiti applicando qualsiasi monotona trasformazione per un certo valore finito . La tangente inversa andrà bene, per esempio.R+[0,C]C


1
Grazie per il tuo suggerimento sulla distanza Kolmogorov. Puoi rendere il tuo commento sulla trasformazione monotonica un po 'più esplicito? Thx
ocram,

1
@Marco Non capisco come si possa essere più espliciti. Intendi riaffermare ciò che ho scritto in termini di una formula come o per con implica per tutti ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber

1
Sì, questo è ciò che intendevo :-) Non ero sicuro su cosa applicare la trasformazione. Ora, è chiaro, grazie
ocram

1
@Marco: mi sono perso. Ti accontenti della distanza di Kolmogorov (che è sempre finita ma non ha nulla in comune con la divergenza di KL)? O per una trasformazione monotona limitata della divergenza di KL (come )? Nell'esempio del tuo post (e in qualsiasi altro esempio non assolutamente continuo ), quest'ultimo produce il supremo della trasformazione ( se ti accontenti di ). In effetti, questo abbandona ogni idea di stimare una distanza tra tali misure di probabilità più precisamente del dire che sono molto lontani (sia che tu decida di codificarlo con o è irrilevante). arctanπ/2arctanπ/2+
Fatto

@Didier Sì, la divergenza KL trasformata (se simmetrizzata, come descrivi) potrebbe non soddisfare la disuguaglianza del triangolo e quindi non sarebbe una distanza, ma definirebbe comunque una topologia (che sarebbe probabilmente metrizzabile). In tal modo rinunciare a poco o niente. Rimango agnostico riguardo ai meriti di fare qualsiasi cosa: mi sembra che questo sia solo un modo di documentare le difficoltà associate agli infiniti valori della divergenza di KL.
whuber

2

Sì, Bernardo e Reuda hanno definito qualcosa chiamato "discrepanza intrinseca" che a tutti gli effetti è una versione "simmetrizzata" della divergenza KL. Considerando la divergenza KL da a come La discrepanza intrinseca è data da:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

La ricerca di discrepanze intrinseche (o criterio di riferimento bayesiano) fornirà alcuni articoli su questa misura.

Nel tuo caso, dovresti semplicemente prendere la divergenza KL che è finita.

Un'altra misura alternativa a KL è la distanza di Hellinger

EDIT: chiarimento, alcuni commenti sollevati hanno suggerito che la discrepanza intrinseca non sarà limitata quando una densità 0 quando l'altra no. Ciò non è vero se l'operazione di valutazione della densità zero viene eseguita come limite o . Il limite è ben definito ed è uguale a per una delle divergenze KL, mentre l'altra divergerà. Per vedere questa nota:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Prendendo il limite come su una regione dell'integrale, il secondo integrale diverge e il primo integrale converge a su questa regione (supponendo che le condizioni siano tali da consentire l'interscambio di limiti e integrazione). Questo perché . A causa della simmetria e il risultato vale anche per .P00limz0zlog(z)=0PQQ


1
Anche la "discrepanza intrinseca" sarà infinita quando è zero con probabilità positiva per e viceversa, anche se e sono altrimenti identici. PQPQ
whuber

1
Sì ... temo che la discrepanza intrinseca non soddisfi i requisiti. Ma grazie per il suggerimento. Qualsiasi altro suggerimento sarebbe apprezzato.
Ocram,

1
Lo fa soddisfare il requisito, se si limita il sostegno della densità di blu per essere dove ha il supporto strettamente positiva, proprio come avete per il rosso (> 0)
probabilityislogic

3
@probabilityislogic: non capisco le tue ultime osservazioni. Innanzitutto, diamo il loro nome proprio alle nozioni coinvolte e diciamo che è assolutamente continuo rispetto a (indicato con ) se, per ogni misurabile , implica . Ora, nonostante le vostre considerazioni limite un po 'misterioso (per me), il tuo è finito se e solo se o . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Ha fatto il

2
... / ... Un modo fuori dalla enigma ti sembra di essere scavato in potrebbe essere quella di introdurre la misura punto medio . Poiché e , la quantità è sempre finita. Inoltre iff e è simmetrico. Quindi misura infatti una sorta di "distanza" tra e . P+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
Fatto il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.