Considera la somma di distribuzioni uniformi su o . Perché la cuspide nel PDF di scompare per ?


40

Mi sono chiesto questo per un po '; Lo trovo un po 'strano quanto bruscamente succede. Fondamentalmente, perché abbiamo bisogno di solo tre uniformi per per appianare come fa? E perché il livellamento avviene in modo relativamente rapido?Zn

Z2 :

2

Z3 :

3

(immagini rubate senza vergogna dal blog di John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

Perché, per esempio, non ci vogliono quattro divise? O cinque? O...?


11
beh, per essere così semplice da essere facile, perché la somma di 3 uniformi ha segmenti quadratici nella sua pf, e una volta che hai due o più uniformi hai un picco nella media. Un picco quadratico è "liscio" ... e i giunti tra pezzi quadratici sono a 1 e 2, quindi non possono piegarsi a 1,5; ci sono altri modi per arrivare alla stessa conclusione
Glen_b -Reinstate Monica

Risposte:


71

Possiamo adottare vari approcci a questo, ognuno dei quali può sembrare intuitivo per alcune persone e meno intuitivo per gli altri. Per soddisfare tale variazione, questa risposta esamina diversi di questi approcci, coprendo le principali divisioni del pensiero matematico: analisi (l'infinito e l'infinito), geometria / topologia (relazioni spaziali) e algebra (schemi formali di manipolazione simbolica) - come così come la probabilità stessa. Si conclude con un'osservazione che unifica tutti e quattro gli approcci, dimostra che c'è una vera domanda a cui rispondere qui e mostra esattamente qual è il problema. Ogni approccio fornisce, a modo suo, una visione più profonda della natura delle forme delle funzioni di distribuzione di probabilità di somme di variabili uniformi indipendenti.


sfondo

L' uniforme la distribuzione[0,1] ha diverse descrizioni di base. Quando ha una tale distribuzione,X

  1. La possibilità che si trovi in ​​un insieme misurabile è solo la misura (lunghezza) di , scritta.A A [ 0 , 1 ] | A [ 0 , 1 ] |XAA[0,1]|A[0,1]|

  2. Da questo è immediato che la funzione di distribuzione cumulativa (CDF) è

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. La funzione di densità di probabilità (PDF), che è la derivata del CDF, è per e altrimenti. (Non definito a e ).0 xfX(x)=1f X ( x ) = 0 0 10x1fX(x)=001

    PDF


Intuizione dalle funzioni caratteristiche (analisi)

La funzione caratteristica (CF) di qualsiasi variabile casuale è l'aspettativa di (dove è l'unità immaginaria, ). Usando il PDF di una distribuzione uniforme possiamo calcolareexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

La CF è una (versione della) trasformata di Fourier del PDF, . I teoremi di base sulle trasformazioni di Fourier sono:ϕ(t)=f^(t)

  • Il CF di una somma di variabili indipendenti è il prodotto dei loro CF.X+Y

  • Quando il PDF originale è continuo e è limitato, può essere recuperato dal CF da una versione strettamente correlata della trasformata di Fourier,X f ϕfXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Quando è differenziabile, la sua derivata può essere calcolata sotto il segno integrale:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Perché questo sia ben definito, l'ultimo integrale deve convergere assolutamente; questo è,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    deve convergere in un valore finito. Viceversa, quando converge, la derivata esiste ovunque in virtù di queste formule di inversione.

Ora è chiaro esattamente quanto sia differenziabile il PDF per una somma di variabili uniformi: dal primo punto elenco, il CF della somma delle variabili iid è il CF di uno di essi elevato alla potenza , qui uguale a . Il numeratore è limitato (è costituito da onde sinusoidali) mentre il denominatore è . Possiamo moltiplicare un tale integrando per e converrà comunque assolutamente quando e convergere condizionatamente quando . Pertanto, l'applicazione ripetuta del terzo punto elenco indica che il PDF per la somma di variate uniformi sarà continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2volte differenziabili e, nella maggior parte dei luoghi, sarà volte differenziabile.n1

CF per n = 10

La curva ombreggiata blu è un diagramma log-log del valore assoluto della parte reale del CF della somma di iid variate uniformi. La linea rossa tratteggiata è un asintoto; la sua pendenza è , mostrando che il PDF è volte differenziabile. Per riferimento, la curva grigia traccia la parte reale del CF per una funzione gaussiana di forma simile (un normale PDF).- 10 10 - 2 = 8n=1010102=8


Intuizione dalla probabilità

Sia e variabili variabili casuali indipendenti in cui abbia una distribuzione uniforme . Considera un intervallo ristretto . Decomponiamo la possibilità che nella possibilità che sia sufficientemente vicino a questo intervallo per la probabilità che abbia le dimensioni giuste per posizionare in questo intervallo, dato che è abbastanza vicino:X X [ 0 , 1 ] ( t , t + d t ] X + Y ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

L'uguaglianza finale proviene da l'espressione per il PDF di . Dividendo entrambi i lati per e prendendo il limite come dàXdtdt0

fX+Y(t)=FY(t)FY(t1).

In altre parole, l'aggiunta di una variabile Uniforme a qualsiasi variabile modifica il pdf in un CDF differenziato . Poiché il PDF è la derivata del CDF, ciò implica che ogni volta che aggiungiamo una variabile uniforme indipendente a , il PDF risultante è una volta più differenziabile rispetto a prima.[0,1]XYfYFY(t)FY(t1)Y

Proviamo ad applicare questa intuizione, a partire da una variabile uniforme . Il PDF originale non è differenziabile a o : è discontinuo lì. Il PDF di non è derivabile in , o , ma deve essere continua nei punti, perché è la differenza di integrali del PDF di . Aggiungi un'altra variabile uniforme indipendente : il PDF di è differenziabile a , , e - ma non ha necessariamente il secondoY01Y+X012YX2Y+X+X2 0123derivati ​​in quei punti. E così via.


Intuizione dalla geometria

Il CDF at di una somma di iid variate è uguale al volume dell'unità ipercubo giace all'interno del semispazio . Qui viene mostrata la situazione per variate, con impostato su , e quindi .tn[0,1]nx1+x2++xntn=3t1/23/25/2

Cubo 3D

Mentre avanza da a , l'iperpiano incrocia vertici at , . Ogni volta la forma della sezione trasversale cambia: nella figura prima c'è un triangolo (un simplesso), poi un esagono, quindi di nuovo un triangolo. Perché il PDF non ha curve nette su questi valori di ?t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

Per capirlo, prima considera i piccoli valori di . Qui, l'iperpiano interrompe un -implex. Tutte le dimensioni del simplex sono direttamente proporzionali a , da cui la sua "area" è proporzionale a . Alcune notazioni per questo torneranno utili in seguito. Sia la "funzione unit step",tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Se non fosse per la presenza degli altri angoli dell'ipercubo, questo ridimensionamento continuerebbe indefinitamente. Un diagramma dell'area del -simplex apparirebbe come la curva blu solida in basso: è zero con valori negativi ed è uguale ain quello positivo, convenientemente scritto. Ha un "nodo" dell'ordine all'origine, nel senso che tutti i derivati ​​attraverso l'ordine esistono e sono continui, ma che le derivate destra e sinistra dell'ordine esistono ma non sono d'accordo sull'origine .n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(Le altre curve mostrate in questa figura sono (Rosso), (Oro) e (Nero). I loro ruoli nel caso sono discussi più avanti).3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

Area grafica semplice

Per capire cosa succede quando incrocia , esaminiamo in dettaglio il caso , dove tutta la geometria avviene in un piano. Possiamo vedere l'unità "cubo" (ora solo un quadrato) come una combinazione lineare di quadranti , come mostrato qui:t1n=2

quadranti

Il primo quadrante appare nel riquadro in basso a sinistra, in grigio. Il valore di è , determinando la linea diagonale mostrata in tutti e cinque i pannelli. Il CDF è uguale all'area gialla mostrata a destra. Questa area gialla è composta da:t1.5

  1. L'area grigia triangolare nel pannello in basso a sinistra,

  2. meno l'area verde triangolare nel pannello in alto a sinistra,

  3. meno l'area rossa triangolare nel pannello medio basso,

  4. più qualsiasi area blu nel pannello centrale superiore (ma non esiste alcuna area del genere, né ci sarà fino a quando supera ).t2

Ognuna di queste aree è l'area di un triangolo. Il primo viene ridimensionato come , i due successivi sono zero per e altrimenti ridimensionano come e l'ultimo è zero per e diversamente scala . Questa analisi geometrica ha stabilito che il CDF è proporzionale a = ; equivalentemente, il PDF è proporzionale alla somma delle tre funzioni , e2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)nθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)(ognuno di essi ridimensiona linearmente quando ). Il pannello di sinistra di questa figura mostra i loro grafici: evidentemente, sono tutte versioni del grafico originale , ma (a) spostato di , e unità a destra e (b) riscalato di , e , rispettivamente.n=2θ(t)t012121

Grafici per n = 2

Il pannello di destra mostra la somma di questi grafici (la curva nera piena, normalizzata per avere un'area unitaria: questo è precisamente il PDF dall'aspetto angolare mostrato nella domanda originale.

Ora possiamo capire la natura dei "nodi" nel PDF di qualsiasi somma di variabili uniformi iid. Sono tutti esattamente come il "nodo" che si verifica a nella funzione , eventualmente riscalato, e spostato sugli interi corrispondente a dove l'iperpiano incrocia i vertici dell'ipercubo. Per , questo è un cambiamento visibile nella direzione: la derivata destra di a è mentre la sua derivata sinistra è . Per , questo è un continuo0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3cambio di direzione, ma un improvviso (discontinuo) cambio nella seconda derivata. Per il generale , ci saranno derivate continue attraverso l'ordine ma una discontinuità nella derivata .nn2n1st


Intuizione dalla manipolazione algebrica

L'integrazione per calcolare il CF, la forma della probabilità condizionale nell'analisi probabilistica e la sintesi di un ipercubo come una combinazione lineare di quadranti suggeriscono tutti di ritornare alla distribuzione uniforme originale e di ri-esprimerlo come una combinazione lineare di cose più semplici . In effetti, il suo PDF può essere scritto

fX(x)=θ(x)θ(x1).

Introduciamo l'operatore di spostamento : agisce su qualsiasi funzione spostando il suo grafico di un'unità a destra:Δf

(Δf)(x)=f(x1).

Formalmente, quindi, per il PDF di una variabile uniforme possiamo scrivereX

fX=(1Δ)θ.

Il PDF di una somma di uniformi è la convoluzione di con se stesso volte. Ciò deriva dalla definizione di una somma di variabili casuali: la convoluzione di due funzioni e è la funzionenfXnfg

(fg)(x)=f(xy)g(y)dy.

È facile verificare che la convoluzione permuta con . Basta cambiare la variabile di integrazione da a :Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

Per il PDF della somma di uniformi IID, possiamo ora procedere algebricamente alla scritturan

f=fXn=((1Δ)θ)n=(1Δ)nθn

(dove "potere" indica ripetute convoluzioni, non moltiplicazioni puntuali!). Ora è un'integrazione diretta, elementare, che dànθn

θn(x)=θ(x)xn1n1!.

Il resto è algebra, perché si applica il Teorema binomiale (come accade in qualsiasi algebra commutativa sui reali):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Poiché sposta semplicemente il suo argomento di , questo mostra il PDF come una combinazione lineare di versioni spostate di , esattamente come abbiamo dedotto geometricamente:Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook cita questa formula più avanti nel suo post sul blog, usando la notazione per .)(xi)+n1(xi)n1θ(xi)

Di conseguenza, poiché è una funzione uniforme ovunque, qualsiasi comportamento singolare del PDF si verificherà solo nei punti in cui è singolare (ovviamente solo ) e in quei luoghi spostati a destra di . La natura di quel comportamento singolare - il grado di scorrevolezza - sarà quindi la stessa in tutte le posizioni .xn1θ(x)01,2,,nn+1

Ad illustrare questa è l'immagine di , che mostra (nel pannello di sinistra) i singoli termini nella somma e (nel pannello di destra) le somme parziali, che culminano nella somma stessa (curva nera solida):n=8

Trama per n = 8


Commenti di chiusura

E 'utile notare che questo ultimo approccio ha finalmente dato un compatto, un'espressione pratica per calcolare il PDF di una somma di variabili uniformi iid. (Allo stesso modo si ottiene una formula per il CDF.)n

Il teorema del limite centrale ha poco da dire qui. Dopotutto, una somma di variabili binomiali iid converge in una distribuzione normale, ma quella somma è sempre discreta: non ha nemmeno un PDF! Non dovremmo sperare in alcuna intuizione sul "nodo" o su altre misure di differenziabilità di un PDF proveniente dal CLT.


12
(+1) Fantastico! Ora, quanto tempo hai impiegato per mettere tutto insieme ?!
cardinale

13
@Cardinal Questa è stata l'ultima domanda che ho letto prima di perdere energia lunedì scorso. Durante la settimana successiva, le lunghe serate buie hanno offerto l'opportunità di pensarci su :-) e, per divertimento, di sviluppare risposte multiple. Dopo che il potere è stato ripristinato lo scorso fine settimana, era solo questione di trovare un po 'di tempo per realizzare le illustrazioni e scrivere tutto (che ha richiesto più tempo del previsto, lo confesso). Spero che forse parte di questo thread possa servire da riferimento per domande future correlate su somme di variabili casuali.
whuber

1
Wow. Vorrei poter 'preferito' questa risposta .
Rabarbaro

2
whuber, questo è assolutamente sorprendente. Non ho mai capito quanto potesse essere profonda una domanda così semplice. Mi ci vorrà un po 'a cercare la tua risposta, ma per ora, grazie mille!
tetragramma

6
Violerò la politica SE sui commenti, dicendo che noi (tutto il crossvalidate.com) dovremmo corrompere la vostra compagnia elettrica per interrompere il potere più spesso :)
mpiktas,

1

Si potrebbe sostenere che la funzione di densità di probabilità di una variabile casuale uniforme è finita,

quindi la sua funzione di densità cumulativa di una variabile casuale uniforme è integrale,

quindi la funzione di densità di probabilità della somma di due variabili casuali uniformi è continua,

quindi la sua funzione di densità cumulativa della somma di due variabili casuali uniformi è uniforme (continuamente differenziabile),

quindi la funzione di densità di probabilità della somma di tre variabili casuali uniformi è regolare.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.