Nel 1946, il geofisico e statistico bayesiano Harold Jeffreys introdusse quella che oggi chiamiamo divergenza di Kullback-Leibler e scoprì che per due distribuzioni che sono "infinitamente vicine" (speriamo che i ragazzi di Math SE non vedano questo ;-) possiamo scrivere la loro divergenza di Kullback-Leibler come una forma quadratica i cui coefficienti sono dati dagli elementi della matrice di informazioni di Fisher. Ha interpretato questa forma quadratica come l'elemento di lunghezza di una varietà riemanniana, con l'informazione di Fisher che ha il ruolo della metrica riemanniana. Da questa geometrizzazione del modello statistico, ha derivato il suo precedente di Jeffreys come misura indotta naturalmente dalla metrica riemanniana, e questa misura può essere interpretata come una distribuzione intrinsecamente uniforme sulla varietà, sebbene, in generale, non sia una misura finita.
Per scrivere una prova rigorosa, è necessario individuare tutte le condizioni di regolarità e prendersi cura dell'ordine dei termini di errore nelle espansioni di Taylor. Ecco un breve schizzo dell'argomento.
La divergenza simmetrizzata di Kullback-Leibler tra due densità e è definita comefg
D [ f, g] = ∫( f( x ) - g( x ) ) registro( f( x )g( x )) dX.
Se abbiamo una famiglia di densità parametrizzata da , alloraθ = ( θ1, ... , θK)
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫(p(x,∣θ)−p(x∣θ+Δθ))log(p(x∣θ)p(x∣θ+Δθ))dx,
in cui . Introducendo la notazione
una semplice algebra dà
Usando l'espansione di Taylor per il logaritmo naturale, abbiamo
Δ θ =(Δθ1, ...,Δθk)Δ p ( x ∣ θ ) = p ( x ∣ θ ) - p ( x ∣ θ + Δ θ ),
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫Δ p ( x ∣ θ )p ( x ∣ θ )log( 1 + Δ p ( x ∣ θ )p ( x ∣ θ )) p(x∣θ)dX.
log( 1 + Δ p ( x ∣ θ )p ( x ∣ θ )) ≈ Δ p ( x ∣ θ )p ( x ∣ θ ),
e quindi
Ma
Quindi
in cui
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] ≈ ∫( Δ p ( x ∣ θ )p ( x ∣ θ ))2p ( x ∣ θ )dX.
Δ p ( x ∣ θ )p ( x ∣ θ )≈ 1p ( x ∣ θ )Σi = 1K∂p ( x ∣ θ )∂θioΔ θio= ∑i = 1K∂logp ( x ∣ θ )∂θioΔ θio.
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] ≈ ∑i , j = 1Kgio jΔ θioΔ θj,
gio j= ∫∂logp ( x ∣ θ )∂θio∂logp ( x ∣ θ )∂θjp ( x ∣ θ )dX.
Questo è il documento originale:
Jeffreys, H. (1946). Una forma invariante per la probabilità precedente in problemi di stima. Proc. Royal Soc. di Londra, serie A, 186, 453–461.