La media di una variabile casuale univariata equivale sempre all'integrale della sua funzione quantile?


17

Ho appena notato che l'integrazione della funzione quantile di una variabile casuale univariata (inverso cdf) da p = 0 a p = 1 produce la media della variabile. Non ho mai sentito parlare di questa relazione prima d'ora, quindi mi chiedo: è sempre così? In tal caso, questa relazione è ampiamente conosciuta?

Ecco un esempio in Python:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

Risposte:


26

Sia F il CDF della variabile casuale X , quindi il CDF inverso può essere scritto F1 . Nel tuo integrale fai la sostituzione p=F(x) , dp=F(x)dx=f(x)dx per ottenere

01F1(p)dp=xf(x)dx=EF[X].

Questo è valido per distribuzioni continue. Bisogna fare attenzione ad altre distribuzioni perché un CDF inverso non ha una definizione univoca.

modificare

Quando la variabile non è continua, non ha una distribuzione assolutamente continua rispetto alla misura di Lebesgue, che richiede attenzione nella definizione del CDF inverso e cura negli integrali di calcolo. Si consideri, ad esempio, il caso di una distribuzione discreta. Per definizione, questo è uno il cui CDF F è una funzione step con step di dimensione PrF(x) ad ogni possibile valore x .

Figura 1

Questa figura mostra la CDF di Bernoulli Distribuzione scalati 2 . Cioè, la variabile casuale ha una probabilità 1 / 3 di eguagliare 0 e una probabilità di 2 / 3 di eguagliare 2 . Le altezze dei salti a 0 e 2 danno le loro probabilità. L'attesa di questa variabile è uguale evidentemente 0 × ( 1 / 3 ) + 2 × ( 2 / 3 ) = /(2/3)21/302/3202 .0×(1/3)+2×(2/3)=4/3

Potremmo definire un "CDF inverso" richiedendoF1

F1(p)=x if F(x)p and F(x)<p.

Ciò significa che è anche una funzione di passaggio. Per ogni possibile valore x della variabile casuale, F - 1 raggiungerà il valore x su un intervallo di lunghezza Pr F ( x ) . Pertanto il suo integrale si ottiene sommando i valori x Pr F ( x ) , che è solo l'aspettativa.F-1XF-1XPrF(X)XPrF(X)

figura 2

Questo è il grafico del CDF inverso dell'esempio precedente. I salti di e 2 / 3 della CDF diventano linee orizzontali di queste lunghezze ad altezze uguali a 0 e 2 , i valori a cui probabilità corrispondono. (L'inverso CDF non è definito oltre l'intervallo [ 0 , 1 ] ). Il suo integrale è la somma di due rettangoli, uno di altezza 0 e base 1 / 3 , l'altra di altezza 2 e base 2 / 3 , per un totale di 4 / 31/32/302[0,1]01/322/34/3, come prima.

In generale, per una miscela di una distribuzione continua e una discreta, dobbiamo definire il CDF inverso in parallelo a questa costruzione: ad ogni salto discreto dell'altezza dobbiamo formare una linea orizzontale di lunghezza p come indicato dalla formula precedente.pp


hai fatto un errore nel cambio di variabile. da dove viene la x?
Mascarpone,

3
@Mascarpone Si prega di leggere il testo che precede l'equazione. Non penso che ci sia un errore nel cambio di variabile :-), ma se pensi che chiarirebbe l'esposizione, sarei felice di sottolineare che quando , quindi x = F - 1 ( p ) . Non pensavo fosse necessario. p=F(x)x=F1(p)
whuber

ora ho capito;),
Mascarpone,

+1 Whuber: grazie! Potresti elaborare per utilizzare la formula che hai dato, come prendersi cura di altre distribuzioni il cui CDF inverso non ha una definizione unica?
StackExchange per tutto il

1
Per bypassare tali inquietanti considerazioni su inversioni, pseudo-inverse e simili, e contemporaneamente per una generalizzazione in ogni momento, vedi qui .
Fatto il

9

Un risultato equivalente è ben noto nell'analisi di sopravvivenza : la durata prevista è dove la funzione di sopravvivenza è S ( t ) = Pr ( T > t ) misurata dalla nascita a t = 0 . (Può essere facilmente esteso per coprire valori negativi di t .)

t=0S(t)dt
S(t)=Pr(T>t)t=0t

enter image description here

Quindi possiamo riscriverlo come ma questo è1 q = 0 F - 1 ( q )

t=0(1F(t))dt
come mostrato nelle varie riflessioni dell'area in questione
q=01F1(q)dq

enter image description here


1
Mi piacciono le foto e istintivamente sento che c'è una grande idea in agguato qui - adoro l'idea--, ma non capisco queste particolari. Le spiegazioni sarebbero utili. Una cosa che mi ferma nelle mie tracce è il pensiero di cercare di estendere l'integrale di a - : deve divergere. (1F(t))dt
whuber

@whuber: Se vuoi estendere a negativa , ottieni t = 0 ( 1 - F ( t ) )t . Si noti che se questo converge per una distribuzione simmetrica di circa 0 , cioè F ( t ) = 1 - F ( - t ) , è facile vedere che l'aspettativa è zero. Prendere una somma piuttosto che una differenzat = 0 ( 1 - F ( t ) )t=0(1F(t))dtt=0F(t)dt0F(t)=1F(t)t=0(1F(t))dt+t=0F(t)dt gives the average absolute deviation about 0.
Henry

If you like diagrams, you may be interested in this 1988 paper by Lee: The Mathematics of Excess of Loss Coverages and Retrospective Rating-A Graphical Approach.
Avraham

4

We are evaluating:

enter image description here

Let's try with a simple change of variable:

enter image description here

And we notice that, by definition of PDF and CDF:

enter image description here

almost everywhere. Thus we have, by definition of expected value:

enter image description here


In the final line I explain more clearly the definition of expected value. The almost everywhere refers to the equation above the last one. en.wikipedia.org/wiki/Almost_everywhere
Mascarpone

1
modificato, grazie :)
Mascarpone

3

For any real-valued random variable X with cdf F it is well-known that F1(U) has the same law than X when U is uniform on (0,1). Therefore the expectation of X, whenever it exists, is the same as the expectation of F1(U):

E(X)=E(F1(U))=01F1(u)du.
The representation XF1(U) holds for a general cdf F, taking F1 to be the left-continuous inverse of F in the case when F it is not invertible.

1

Note that F(x) is defined as P(Xx) and is a right-continuous function. F1 is defined as

F1(p)=min(x|F(x)p).
The min makes sense because of the right continuity. Let U be a uniform distribution on [0,1]. You can easily verify that F1(U) has the same CDF as X, which is F. This doesn't require X to be continuous. Hence, E(X)=E(F1(U))=01F1(p)dp. The integral is the Riemann–Stieltjes integral. The only assumption we need is the mean of X exists (E|X|<).

That's the same answer as mine.
Stéphane Laurent
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.