Collegamento tra metrica di Fisher ed entropia relativa


20

Qualcuno può provare la seguente connessione tra la metrica di informazioni di Fisher e la relativa entropia (o divergenza di KL) in modo rigorosamente matematico rigoroso?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
dove a=(a1,,an),da=(da1,,dan) ,
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
and gi,jdaidaj:=i,jgi,jdaidaj è la convenzione di sommatoria di Einstein.

Ho trovato quanto sopra nel bel blog di John Baez in cui Vasileios Anagnostopoulos dice questo nei commenti.


1
Caro Kumara: per chiarire, sarebbe utile spiegare meglio la tua notazione, in particolare il significato di gi,j . Inoltre, penso che alla tua espressione manchi un fattore costante di 1/2 davanti al primo termine del lato destro dell'equazione di visualizzazione. Nota che ciò che Kullback stesso ha chiamato divergenza (usando la notazione J(,) ) è la versione simmetrizzata di ciò che è noto chiamato divergenza KL, cioè J(p,q)=D(pq)+D(qp) . La divergenza di KL era indicata con I(,) negli scritti di Kullback. Questo spiega anche il fattore 1/2 . Saluti.
cardinale il

Risposte:


19

Nel 1946, il geofisico e statistico bayesiano Harold Jeffreys introdusse quella che oggi chiamiamo divergenza di Kullback-Leibler e scoprì che per due distribuzioni che sono "infinitamente vicine" (speriamo che i ragazzi di Math SE non vedano questo ;-) possiamo scrivere la loro divergenza di Kullback-Leibler come una forma quadratica i cui coefficienti sono dati dagli elementi della matrice di informazioni di Fisher. Ha interpretato questa forma quadratica come l'elemento di lunghezza di una varietà riemanniana, con l'informazione di Fisher che ha il ruolo della metrica riemanniana. Da questa geometrizzazione del modello statistico, ha derivato il suo precedente di Jeffreys come misura indotta naturalmente dalla metrica riemanniana, e questa misura può essere interpretata come una distribuzione intrinsecamente uniforme sulla varietà, sebbene, in generale, non sia una misura finita.

Per scrivere una prova rigorosa, è necessario individuare tutte le condizioni di regolarità e prendersi cura dell'ordine dei termini di errore nelle espansioni di Taylor. Ecco un breve schizzo dell'argomento.

La divergenza simmetrizzata di Kullback-Leibler tra due densità e è definita comefg

D[f,g]=(f(X)-g(X))log(f(X)g(X))dX.

Se abbiamo una famiglia di densità parametrizzata da , alloraθ=(θ1,...,θK)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
in cui . Introducendo la notazione una semplice algebra dà Usando l'espansione di Taylor per il logaritmo naturale, abbiamo Δθ=(Δθ1,...,ΔθK)
Δp(X|θ)=p(X|θ)-p(X|θ+Δθ),
D[p(|θ),p(|θ+Δθ)]=Δp(X|θ)p(X|θ)log(1+Δp(X|θ)p(X|θ))p(X|θ)dX.
log(1+Δp(X|θ)p(X|θ))Δp(X|θ)p(X|θ),
e quindi Ma Quindi in cui
D[p(|θ),p(|θ+Δθ)](Δp(X|θ)p(X|θ))2p(X|θ)dX.
Δp(X|θ)p(X|θ)1p(X|θ)Σio=1Kp(X|θ)θioΔθio=Σio=1Klogp(X|θ)θioΔθio.
D[p(|θ),p(|θ+Δθ)]Σio,j=1KgiojΔθioΔθj,
gioj=logp(X|θ)θiologp(X|θ)θjp(X|θ)dX.

Questo è il documento originale:

Jeffreys, H. (1946). Una forma invariante per la probabilità precedente in problemi di stima. Proc. Royal Soc. di Londra, serie A, 186, 453–461.


1
Grazie mille per la bella scrittura. Sarebbe bello se tu potessi aiutare anche questo .
Kumara,

Sì, hai giustamente detto. Devo uscire da questa "trappola dell'astrazione".
Kumara,

@zen Stai utilizzando l'espansione Taylor del logaritmo sotto l'integrale, perché è valido?
Sus20200,

1
Sembra fondamentale iniziare con la divergenza KL simmetrizzata, al contrario della divergenza KL standard. L'articolo di Wikipedia non menziona la versione simmetrica, e quindi potrebbe non essere corretto. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Surgical Commander

11

Prova della normale divergenza KL (non simmetrica)

La risposta dello Zen usa la divergenza KL simmetrizzata, ma il risultato vale anche per la forma normale, poiché diventa simmetrico per distribuzioni infinitamente simili.

Ecco una prova per distribuzioni discrete parametrizzate da uno scalare (perché sono pigro), ma possono essere facilmente riscritte per distribuzioni continue o un vettore di parametri:θ

= p θ log p θ - p θ log p θ = 0 - d θ p θ d

D(pθ,pθ+dθ)=Σpθlogpθ-Σpθlogpθ+dθ .
Taylor: espandendo l'ultimo termine: Supponendo alcune regolarità, ho usato i due risultati: :pθd
=Σpθlogpθ-Σpθlogpθ= 0-dθΣpθddθlogpθ= 0 -12dθ2Σpθd2dθ2logpθ=-Σpθ(ddθlogpθ)2 +O(dθ3)=12dθ2Σpθ(ddθlogpθ)2Informazioni Fisher+O(dθ3).
:Σpθddθlogpθ=Σddθpθ=ddθΣpθ=0,

:Σpθd2dθ2logpθ=Σpθddθ(1pθdpθdθ)=Σpθ[1pθd2pθdθ-(1pθdpθdθ)2]=Σd2pθdθ2-Σpθ(1pθdpθdθ)2=d2dθ2Σpθ= 0-Σpθ(ddθlogpθ)2.

4

È possibile trovare una relazione simile (per un parametro unidimensionale) nell'equazione (3) del seguente documento

D. Guo (2009), Entropia relativa e funzione di punteggio: nuove relazioni informazioni-stima attraverso perturbazione additiva arbitraria , in Proc. Simposio internazionale IEEE sulla teoria dell'informazione , 814–818. ( collegamento stabile ).

Gli autori si riferiscono a

S. Kullback, Teoria dell'informazione e statistica . New York: Dover, 1968.

per una prova di questo risultato.


1
Una versione multivariata dell'equazione (3) di quel documento è dimostrata nel citato testo di Kullback alle pagine 27-28. La costante sembra essere scomparsa nella domanda del PO. :)1/2
cardinale il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.