Preliminari
Scrivi
Ip(ϵ)=∫∞0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.
I logaritmi e la relazione tra e suggeriscono di esprimere sia che i suoi argomenti come esponenziali. A tal fine, definirep ( x ( 1 + ϵ ) ) pp(x)p(x(1+ϵ))p
q(y)=log(p(ey))
per tutto reale per cui è definita la parte destra e uguale a ovunque . Si noti che il cambiamento delle variabili comporta e (prendendo come densità di una distribuzione) che la Legge della Probabilità Totale può quindi essere espressa come- ∞ p ( e y ) = 0 x = e y d x = e y d y py−∞p(ey)=0x=eydx=eydyp
1=∫∞0p(x)dx=∫Req(y)+ydy.(1)
Supponiamo quando . y → ± ∞eq(y)+y→0y→±∞ Questo esclude le distribuzioni di probabilità con infiniti picchi di densità vicino a o . In particolare, se le code di sono alla fine monotoniche, implica questo presupposto, dimostrando che non è grave.0∞p(1)p0∞p(1)
Per semplificare il lavoro con i logaritmi, osservare anche questo
1+ϵ=eϵ+O(ϵ2).
Poiché i seguenti calcoli verranno eseguiti fino a multipli di , definireϵ2
δ=log(1+ϵ).
Potremmo anche sostituire con , con corrispondente a e positivo corrispondente a positivo .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ
Analisi
Un modo ovvio in cui la disuguaglianza può fallire sarebbe che l'integrale divergesse per alcuni . Ciò accadrebbe se, per esempio, ci fosse qualsiasi intervallo corretto di numeri positivi, non importa quanto piccolo, in cui fosse identicamente zero ma non fosse zero nell'intervallo . Ciò causerebbe l'integrando infinito con probabilità positiva.ϵ∈(0,1][u,v]pp[u-ϵ,v-ϵ]Ip(ϵ)ϵ∈(0,1][u,v]pp[u−ϵ,v−ϵ]
Poiché la domanda non è specifica in merito alla natura di , potremmo impantanarci in questioni tecniche riguardanti quanto potrebbe essere liscia la . Evitiamo tali problemi, sperando ancora di ottenere alcune intuizioni, supponendo che ovunque abbia tanti derivati che potremmo voler usare. (Due saranno sufficienti se è continuo.) Poiché tale garanzia rimane limitata su qualsiasi insieme limitato, implica che non è mai zero quando .p q q ′ ′ q p ( x ) x > 0ppqq′′qp(x)x>0
Nota che la domanda riguarda davvero il comportamento di mentre avvicina a zero dall'alto. Poiché questo integrale è una funzione continua di nell'intervallo , raggiunge un massimo quando è limitato a qualsiasi intervallo positivo , permettendoci di scegliere , perché ovviamenteϵϵ(0,1] M p (a)ϵ[a,1]c= M p (a) / a 2 c ϵ 2 = M p (a) ( ϵIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2
cϵ2=Mp(a)(ϵa)2≥Mp(a)≥Ip(ϵ)
fa funzionare la disuguaglianza. Questo è il motivo per cui dobbiamo preoccuparci solo del calcolo modulo .ϵ2
Soluzione
Usando le modifiche della variabile da a , da a e da a , calcoliamo attraverso il secondo ordine in (o ) nella speranza di raggiungere una semplificazione. A tal fine definirexypqϵδIp(ϵ)ϵδ
R(y,δ)δ2=q(y+δ)−q(y)−δq′(y)
essere il resto dell'ordine nell'espansione di Taylor di intorno a .2qy
Ip(ϵ)=∫Req(y)+y(q(y)−q(y+δ)−δ)dy=−∫Req(y)+y(δ+δq′(y)+R(y,δ)δ2)dy=−δ∫Req(y)+y(1+q′(y))dy−δ2∫Req(y)+yR(y,δ)dy.
Modificando le variabili in nell'integrale della mano sinistra si vede che deve svanire, come osservato nell'ipotesi seguente . Cambiando le variabili in nell'integrale di destra si ottieneq(y)+y(1)x=ey
Ip(ϵ)=−δ2∫Rp(x)R(log(x),δ)dy=−δ2Ep(R(log(x),δ)).
La disuguaglianza vale (sotto le nostre varie ipotesi tecniche) se e solo se il coefficiente di sul lato destro è finito.δ2
Interpretazione
Questo è un buon punto per fermarsi, perché sembra scoprire il problema essenziale: è delimitato da una funzione quadratica di proprio quando l'errore quadratico nell'espansione di Taylor di non lo fa esplodere (relativi alla distribuzione) come avvicina .Ip(ϵ)ϵqy±∞
Controlliamo alcuni dei casi menzionati nella domanda: le distribuzioni esponenziali e gamma. (L'esponenziale è un caso speciale della gamma.) Non dobbiamo mai preoccuparci dei parametri di scala, perché cambiano semplicemente le unità di misura. Sono importanti solo i parametri non in scala.
Qui, perché per , L'espansione di Taylor attorno a una arbitraria èIl teorema di Taylor con Remainder implica che è dominato da per sufficientemente piccolo . Poiché l'aspettativa di è finita, la disuguaglianza vale per le distribuzioni gamma.p(x)=xke−xk>−1
q(y)=−ey+ky−logΓ(k+1).
yR(log(x),δ)ey+δ/2<xδxConstant+(k−ey)δ−ey2δ2+⋯.
R(log(x),δ)ey+δ/2<xδx
Calcoli simili implicano la disuguaglianza per le distribuzioni di Weibull, distribuzioni Half-Normal, distribuzioni lognormale, ecc, infatti, di ottenere controesempi avremmo bisogno di violare almeno un'ipotesi, costringendoci ad esaminare la distribuzione dove annulla su un certo intervallo, o è non continuamente due volte differenziabile, o ha infinitamente molte modalità. Questi sono test facili da applicare a qualsiasi famiglia di distribuzioni comunemente utilizzate nella modellistica statistica.p