Interpretazione del derivato Radon-Nikodym tra misure di probabilità?


11

Ho visto in alcuni punti l'uso del derivato Radon-Nikodym di una misura di probabilità rispetto a un'altra, in particolare nella divergenza di Kullback-Leibler, dove è la derivata della misura di probabilità di un modello per un parametro arbitrario rispetto al parametro reale :θ 0θθ0

dPθdPθ0

Dove si tratta di entrambe le misure di probabilità sullo spazio dei punti dati in base a un valore di parametro: .Pθ(D)=P(D|θ)

Qual è l'interpretazione di un tale derivato Radon-Nikodym nella divergenza di Kullback-Leibler, o più in generale tra due misure di probabilità?

Risposte:


12

In primo luogo, non abbiamo bisogno di misure di probabilità, solo -finiteness. Quindi cerchiamo M = ( Ω , F ) sia uno spazio misurabile e lasciare μ e ν essere σ misure -finite su M .σM=(Ω,F)μνσM

Il teorema di Radon-Nikodym afferma che se per tutto A F , indicato con μ ν , quindi esiste una funzione di Borel non negativa f tale che ν ( A ) = A fμ(A)=0ν(A)=0AFμνf per tutti A F .

ν(A)=Afdμ
AF

Ecco come mi piace pensare a questo. Innanzitutto, per ogni due misure su , definiamo μ ν per significare μ ( A ) = 0Mμν . Questa è una relazione di equivalenza valida e diciamo che μ e ν sonoequivalentiin questo caso. Perché questa è una ragionevole equivalenza per le misure? Le misure sono solo funzioni ma i loro domini sono difficili da visualizzare. Che dire se due funzioni ordinarie f , g : RR hanno questa proprietà, cioè f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RR ? Bene, definisci h ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. e nota che ovunque sul supporto di g abbiamo g h = f , e al di fuori del supporto di g g h = 0 π e = 0 = f (poiché ff(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
ggh=fg gh=0πe=0=ffe supporti azione) in modo h ci fa rescale g in f . Come sottolinea @whuber, l'idea chiave qui non è che sia in qualche modo "sicuro" da fare o da ignorare, ma piuttosto quando non importa che cosa fa , quindi possiamo semplicemente definirlo arbitrariamente (come essere che non ha alcun significato speciale qui) e le cose funzionano ancora. Anche in questo caso possiamo definire la funzione analoga con modo che .ghgfg = 0 h π e h ' g / f f h ' = g0/0g=0hπehg/ffh=g

Quindi supponiamo che , ma l'altra direzione non necessariamente regge. Ciò significa che la nostra precedente definizione di funziona ancora, ma ora non funziona poiché avrà divisioni effettive per . Quindi possiamo ridimensionare g in f tramite g h = f , ma non possiamo andare nella direzione opposta perché dovremmo ridimensionare qualcosa 0 in qualcosa diverso da zero.h h 0g(x)=0f(x)=0hh0gfgh=f0

Ora torniamo a e ν e denotiamo il nostro RND con f . Se μ ν , ciò significa intuitivamente che uno può essere riscalato nell'altro, e viceversa. Ma in generale vogliamo solo andare in una direzione con questo (cioè ridimensionare una buona misura come la misura di Lebesgue in una misura più astratta), quindi abbiamo solo bisogno di μ ν per fare cose utili. Questo riscalaggio è il cuore dell'RND.μνfμνμν

Tornando al punto di @ whuber nei commenti, v'è una sottigliezza in più per il motivo per cui è sicuro di ignorare la questione di . Questo perché con le misure definiamo le cose solo fino a insiemi di misure quindi su qualsiasi insieme con possiamo semplicemente fare in modo che il nostro RND prenda qualsiasi valore, diciamo . Quindi non è che 0 / 0 è intrinsecamente sicuro, ma piuttosto da nessuna parte che avremmo 0 / 0 è un insieme di misura 0 WRT μ in modo che possiamo solo definire il nostro RND essere qualcosa lì bello senza alterare nulla.0/0A μ ( A ) = 0 10Aμ(A)=010/00/00μ

Ad esempio, supponiamo che per alcuni k > 0 . Quindi ν ( A ) = Akμ=νk>0 quindi abbiamo che f ( x ) = k = d ν

ν(A)=Adν=Akdμ
è l'RND (ciò può essere giustificato in modo più formale dal teorema della modifica delle misure). Questo è positivo perché abbiamo recuperato esattamente il fattore di ridimensionamento.f(x)=k=dνdμ

Ecco un secondo esempio per sottolineare come il cambiamento di RND su insiemi di misura non li influenza. Sia f ( x ) = φ ( x ) + 1 Q ( x ) , cioè è il PDF normale standard più 1 se l'input è razionale, e sia X un camper con questa densità. Questo significa P ( X A ) = A ( φ + 1 Q )0f(x)=φ(x)+1Q(x)1X= A φ

P(XA)=A(φ+1Q)dλ
quindi in realtà X è ancora un camper gaussiano standard. Non ha influito in alcun modo sulla distribuzione per modificare X su Q perché è un insieme di misure 0 wrt λ .
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ

XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

P(X=n)>0nY


PQμdPdQ=dP/dμdQ/dμ:=p/q


3
0/00/0

1
@whuber grazie mille per il commento, che aiuta davvero. Ho provato ad aggiornare per risolvere questo problema
jld
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.