Distribuzione di probabilità speciale


12

Se è una distribuzione di probabilità con valori diversi da zero su , per quale tipo di esiste una costante tale che per tutti ?p(x)[0,+)p(x)c>00p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ20<ϵ<1

La disuguaglianza sopra è in realtà una divergenza di Kullback-Leibler tra la distribuzione e una versione compressa di essa . Ho scoperto che questa disuguaglianza vale per le distribuzioni esponenziali, gamma e weibull e sono interessato a sapere se funziona per una classe più ampia di distribuzioni di probabilità.p(x)(1+ϵ)p(x(1+ϵ))

Qualche idea su cosa significhi questa disuguaglianza?


3
Poiché è positivo, sarebbe compresso (nella direzione x) anziché allungato. ϵ
Glen_b

2
Questa domanda è ambigua: quali sono i tuoi quantificatori? Vuoi che questa disuguaglianza valga per tutti , almeno uno o qualcos'altro? viene dato a priori o vuoi dire che dovrebbe esistere almeno uno di questi valori di ? E poiché menzioni le classi di distribuzioni di probabilità, per " " intendi una distribuzione specifica o forse intendi una loro famiglia parametrica? ϵ c c p ( x )ϵ ϵccp(x)
whuber

2
@whuber Grazie per i tuoi commenti. Ho apportato correzioni alla mia dichiarazione del problema per chiarire le questioni menzionate. Voglio dire, per quale vale la disuguaglianza di cui sopra? La risposta potrebbe essere o introdurre una famiglia parametrica di distribuzioni o proporre un'equazione differenziale per che è sufficiente e fornisce la disuguaglianza desiderata. p ( x )p(x)p(x)
Sus20200,

2
Questa disuguaglianza non funzionerebbe per qualsiasi p (x) che sia continuo e con un supporto infinito? Stai calcolando la divergenza di KL all'interno di una famiglia parametrica ( . Se KL è diffondibile a 0, allora la sua derivata è 0. Considerando come massimo della curvatura di KL (per ), abbiamo il limite. Con un lavoro aggiuntivo, potrebbe essere possibile legare C dalle proprietà di pC ϵ [ 0 , 1 ]ϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene il

1
Può essere infinito purché . L'espansione del primo ordine del KL èL ϵ + O ( ϵ 2 )L=limx0p(x)x=0Lϵ+O(ϵ2)
Arthur B.

Risposte:


4

Preliminari

Scrivi

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

I logaritmi e la relazione tra e suggeriscono di esprimere sia che i suoi argomenti come esponenziali. A tal fine, definirep ( x ( 1 + ϵ ) ) pp(x)p(x(1+ϵ))p

q(y)=log(p(ey))

per tutto reale per cui è definita la parte destra e uguale a ovunque . Si noti che il cambiamento delle variabili comporta e (prendendo come densità di una distribuzione) che la Legge della Probabilità Totale può quindi essere espressa come- p ( e y ) = 0 x = e y d x = e y d y pyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Supponiamo quando . y ± eq(y)+y0y± Questo esclude le distribuzioni di probabilità con infiniti picchi di densità vicino a o . In particolare, se le code di sono alla fine monotoniche, implica questo presupposto, dimostrando che non è grave.0p(1)p0p(1)

Per semplificare il lavoro con i logaritmi, osservare anche questo

1+ϵ=eϵ+O(ϵ2).

Poiché i seguenti calcoli verranno eseguiti fino a multipli di , definireϵ2

δ=log(1+ϵ).

Potremmo anche sostituire con , con corrispondente a e positivo corrispondente a positivo .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ

Analisi

Un modo ovvio in cui la disuguaglianza può fallire sarebbe che l'integrale divergesse per alcuni . Ciò accadrebbe se, per esempio, ci fosse qualsiasi intervallo corretto di numeri positivi, non importa quanto piccolo, in cui fosse identicamente zero ma non fosse zero nell'intervallo . Ciò causerebbe l'integrando infinito con probabilità positiva.ϵ(0,1][u,v]pp[u-ϵ,v-ϵ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

Poiché la domanda non è specifica in merito alla natura di , potremmo impantanarci in questioni tecniche riguardanti quanto potrebbe essere liscia la . Evitiamo tali problemi, sperando ancora di ottenere alcune intuizioni, supponendo che ovunque abbia tanti derivati ​​che potremmo voler usare. (Due saranno sufficienti se è continuo.) Poiché tale garanzia rimane limitata su qualsiasi insieme limitato, implica che non è mai zero quando .p q q q p ( x ) x > 0ppqqqp(x)x>0

Nota che la domanda riguarda davvero il comportamento di mentre avvicina a zero dall'alto. Poiché questo integrale è una funzione continua di nell'intervallo , raggiunge un massimo quando è limitato a qualsiasi intervallo positivo , permettendoci di scegliere , perché ovviamenteϵϵ(0,1] M p (a)ϵ[a,1]c= M p (a) / a 2 c ϵ 2 = M p (a) ( ϵIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

fa funzionare la disuguaglianza. Questo è il motivo per cui dobbiamo preoccuparci solo del calcolo modulo .ϵ2

Soluzione

Usando le modifiche della variabile da a , da a e da a , calcoliamo attraverso il secondo ordine in (o ) nella speranza di raggiungere una semplificazione. A tal fine definirexypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

essere il resto dell'ordine nell'espansione di Taylor di intorno a .2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Modificando le variabili in nell'integrale della mano sinistra si vede che deve svanire, come osservato nell'ipotesi seguente . Cambiando le variabili in nell'integrale di destra si ottieneq(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

La disuguaglianza vale (sotto le nostre varie ipotesi tecniche) se e solo se il coefficiente di sul lato destro è finito.δ2

Interpretazione

Questo è un buon punto per fermarsi, perché sembra scoprire il problema essenziale: è delimitato da una funzione quadratica di proprio quando l'errore quadratico nell'espansione di Taylor di non lo fa esplodere (relativi alla distribuzione) come avvicina .Ip(ϵ)ϵqy±

Controlliamo alcuni dei casi menzionati nella domanda: le distribuzioni esponenziali e gamma. (L'esponenziale è un caso speciale della gamma.) Non dobbiamo mai preoccuparci dei parametri di scala, perché cambiano semplicemente le unità di misura. Sono importanti solo i parametri non in scala.

Qui, perché per , L'espansione di Taylor attorno a una arbitraria èIl teorema di Taylor con Remainder implica che è dominato da per sufficientemente piccolo . Poiché l'aspettativa di è finita, la disuguaglianza vale per le distribuzioni gamma.p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
yR(log(x),δ)ey+δ/2<xδx
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

Calcoli simili implicano la disuguaglianza per le distribuzioni di Weibull, distribuzioni Half-Normal, distribuzioni lognormale, ecc, infatti, di ottenere controesempi avremmo bisogno di violare almeno un'ipotesi, costringendoci ad esaminare la distribuzione dove annulla su un certo intervallo, o è non continuamente due volte differenziabile, o ha infinitamente molte modalità. Questi sono test facili da applicare a qualsiasi famiglia di distribuzioni comunemente utilizzate nella modellistica statistica.p

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.