Possiamo adottare vari approcci a questo, ognuno dei quali può sembrare intuitivo per alcune persone e meno intuitivo per gli altri. Per soddisfare tale variazione, questa risposta esamina diversi di questi approcci, coprendo le principali divisioni del pensiero matematico: analisi (l'infinito e l'infinito), geometria / topologia (relazioni spaziali) e algebra (schemi formali di manipolazione simbolica) - come così come la probabilità stessa. Si conclude con un'osservazione che unifica tutti e quattro gli approcci, dimostra che c'è una vera domanda a cui rispondere qui e mostra esattamente qual è il problema. Ogni approccio fornisce, a modo suo, una visione più profonda della natura delle forme delle funzioni di distribuzione di probabilità di somme di variabili uniformi indipendenti.
sfondo
L' uniforme la distribuzione[0,1] ha diverse descrizioni di base. Quando ha una tale distribuzione,X
La possibilità che si trovi in un insieme misurabile è solo la misura (lunghezza) di , scritta.A A ∩ [ 0 , 1 ] | A ∩ [ 0 , 1 ] |XAA∩[0,1]|A∩[0,1]|
Da questo è immediato che la funzione di distribuzione cumulativa (CDF) è
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
La funzione di densità di probabilità (PDF), che è la derivata del CDF, è per e altrimenti. (Non definito a e ).0 ≤ xfX(x)=1f X ( x ) = 0 0 10≤x≤1fX(x)=001
Intuizione dalle funzioni caratteristiche (analisi)
La funzione caratteristica (CF) di qualsiasi variabile casuale è l'aspettativa di (dove è l'unità immaginaria, ). Usando il PDF di una distribuzione uniforme possiamo calcolareexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=−1
φX( t ) = ∫∞- ∞exp( i t x ) fX( x ) dx = ∫10exp( i t x ) dx =exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
La CF è una (versione della) trasformata di Fourier del PDF, . I teoremi di base sulle trasformazioni di Fourier sono:ϕ(t)=f^(t)
Il CF di una somma di variabili indipendenti è il prodotto dei loro CF.X+Y
Quando il PDF originale è continuo e è limitato, può essere recuperato dal CF da una versione strettamente correlata della trasformata di Fourier,X f ϕfXfϕ
f( x ) = ϕˇ( x ) = 12 π∫∞- ∞exp( - i x t ) ϕ ( t ) dt .
Quando è differenziabile, la sua derivata può essere calcolata sotto il segno integrale:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Perché questo sia ben definito, l'ultimo integrale deve convergere assolutamente; questo è,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
deve convergere in un valore finito. Viceversa, quando converge, la derivata esiste ovunque in virtù di queste formule di inversione.
Ora è chiaro esattamente quanto sia differenziabile il PDF per una somma di variabili uniformi: dal primo punto elenco, il CF della somma delle variabili iid è il CF di uno di essi elevato alla potenza , qui uguale a . Il numeratore è limitato (è costituito da onde sinusoidali) mentre il denominatore è . Possiamo moltiplicare un tale integrando per e converrà comunque assolutamente quando e convergere condizionatamente quando . Pertanto, l'applicazione ripetuta del terzo punto elenco indica che il PDF per la somma di variate uniformi sarà continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2volte differenziabili e, nella maggior parte dei luoghi, sarà volte differenziabile.n−1
La curva ombreggiata blu è un diagramma log-log del valore assoluto della parte reale del CF della somma di iid variate uniformi. La linea rossa tratteggiata è un asintoto; la sua pendenza è , mostrando che il PDF è volte differenziabile. Per riferimento, la curva grigia traccia la parte reale del CF per una funzione gaussiana di forma simile (un normale PDF).- 10 10 - 2 = 8n=10−1010−2=8
Intuizione dalla probabilità
Sia e variabili variabili casuali indipendenti in cui abbia una distribuzione uniforme . Considera un intervallo ristretto . Decomponiamo la possibilità che nella possibilità che sia sufficientemente vicino a questo intervallo per la probabilità che abbia le dimensioni giuste per posizionare in questo intervallo, dato che è abbastanza vicino:X X [ 0 , 1 ] ( t , t + d t ] X + Y ∈ ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
L'uguaglianza finale proviene da l'espressione per il PDF di . Dividendo entrambi i lati per e prendendo il limite come dàXdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
In altre parole, l'aggiunta di una variabile Uniforme a qualsiasi variabile modifica il pdf in un CDF differenziato . Poiché il PDF è la derivata del CDF, ciò implica che ogni volta che aggiungiamo una variabile uniforme indipendente a , il PDF risultante è una volta più differenziabile rispetto a prima.[0,1]XYfYFY(t)−FY(t−1)Y
Proviamo ad applicare questa intuizione, a partire da una variabile uniforme . Il PDF originale non è differenziabile a o : è discontinuo lì. Il PDF di non è derivabile in , o , ma deve essere continua nei punti, perché è la differenza di integrali del PDF di . Aggiungi un'altra variabile uniforme indipendente : il PDF di è differenziabile a , , e - ma non ha necessariamente il secondoY01Y+X012YX2Y+X+X2 0123derivati in quei punti. E così via.
Intuizione dalla geometria
Il CDF at di una somma di iid variate è uguale al volume dell'unità ipercubo giace all'interno del semispazio . Qui viene mostrata la situazione per variate, con impostato su , e quindi .tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
Mentre avanza da a , l'iperpiano incrocia vertici at , . Ogni volta la forma della sezione trasversale cambia: nella figura prima c'è un triangolo (un simplesso), poi un esagono, quindi di nuovo un triangolo. Perché il PDF non ha curve nette su questi valori di ?t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
Per capirlo, prima considera i piccoli valori di . Qui, l'iperpiano interrompe un -implex. Tutte le dimensioni del simplex sono direttamente proporzionali a , da cui la sua "area" è proporzionale a . Alcune notazioni per questo torneranno utili in seguito. Sia la "funzione unit step",tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Se non fosse per la presenza degli altri angoli dell'ipercubo, questo ridimensionamento continuerebbe indefinitamente. Un diagramma dell'area del -simplex apparirebbe come la curva blu solida in basso: è zero con valori negativi ed è uguale ain quello positivo, convenientemente scritto. Ha un "nodo" dell'ordine all'origine, nel senso che tutti i derivati attraverso l'ordine esistono e sono continui, ma che le derivate destra e sinistra dell'ordine esistono ma non sono d'accordo sull'origine .n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(Le altre curve mostrate in questa figura sono (Rosso), (Oro) e (Nero). I loro ruoli nel caso sono discussi più avanti).−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
Per capire cosa succede quando incrocia , esaminiamo in dettaglio il caso , dove tutta la geometria avviene in un piano. Possiamo vedere l'unità "cubo" (ora solo un quadrato) come una combinazione lineare di quadranti , come mostrato qui:t1n=2
Il primo quadrante appare nel riquadro in basso a sinistra, in grigio. Il valore di è , determinando la linea diagonale mostrata in tutti e cinque i pannelli. Il CDF è uguale all'area gialla mostrata a destra. Questa area gialla è composta da:t1.5
L'area grigia triangolare nel pannello in basso a sinistra,
meno l'area verde triangolare nel pannello in alto a sinistra,
meno l'area rossa triangolare nel pannello medio basso,
più qualsiasi area blu nel pannello centrale superiore (ma non esiste alcuna area del genere, né ci sarà fino a quando supera ).t2
Ognuna di queste aree è l'area di un triangolo. Il primo viene ridimensionato come , i due successivi sono zero per e altrimenti ridimensionano come e l'ultimo è zero per e diversamente scala . Questa analisi geometrica ha stabilito che il CDF è proporzionale a = ; equivalentemente, il PDF è proporzionale alla somma delle tre funzioni , e2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)nθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)(ognuno di essi ridimensiona linearmente quando ). Il pannello di sinistra di questa figura mostra i loro grafici: evidentemente, sono tutte versioni del grafico originale , ma (a) spostato di , e unità a destra e (b) riscalato di , e , rispettivamente.n=2θ(t)t0121−21
Il pannello di destra mostra la somma di questi grafici (la curva nera piena, normalizzata per avere un'area unitaria: questo è precisamente il PDF dall'aspetto angolare mostrato nella domanda originale.
Ora possiamo capire la natura dei "nodi" nel PDF di qualsiasi somma di variabili uniformi iid. Sono tutti esattamente come il "nodo" che si verifica a nella funzione , eventualmente riscalato, e spostato sugli interi corrispondente a dove l'iperpiano incrocia i vertici dell'ipercubo. Per , questo è un cambiamento visibile nella direzione: la derivata destra di a è mentre la sua derivata sinistra è . Per , questo è un continuo0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3cambio di direzione, ma un improvviso (discontinuo) cambio nella seconda derivata. Per il generale , ci saranno derivate continue attraverso l'ordine ma una discontinuità nella derivata .nn−2n−1st
Intuizione dalla manipolazione algebrica
L'integrazione per calcolare il CF, la forma della probabilità condizionale nell'analisi probabilistica e la sintesi di un ipercubo come una combinazione lineare di quadranti suggeriscono tutti di ritornare alla distribuzione uniforme originale e di ri-esprimerlo come una combinazione lineare di cose più semplici . In effetti, il suo PDF può essere scritto
fX(x)=θ(x)−θ(x−1).
Introduciamo l'operatore di spostamento : agisce su qualsiasi funzione spostando il suo grafico di un'unità a destra:Δf
(Δf)(x)=f(x−1).
Formalmente, quindi, per il PDF di una variabile uniforme possiamo scrivereX
fX=(1−Δ)θ.
Il PDF di una somma di uniformi è la convoluzione di con se stesso volte. Ciò deriva dalla definizione di una somma di variabili casuali: la convoluzione di due funzioni e è la funzionenfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
È facile verificare che la convoluzione permuta con . Basta cambiare la variabile di integrazione da a :Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
Per il PDF della somma di uniformi IID, possiamo ora procedere algebricamente alla scritturan
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(dove "potere" indica ripetute convoluzioni, non moltiplicazioni puntuali!). Ora è un'integrazione diretta, elementare, che dà⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
Il resto è algebra, perché si applica il Teorema binomiale (come accade in qualsiasi algebra commutativa sui reali):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Poiché sposta semplicemente il suo argomento di , questo mostra il PDF come una combinazione lineare di versioni spostate di , esattamente come abbiamo dedotto geometricamente:Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook cita questa formula più avanti nel suo post sul blog, usando la notazione per .)(x−i)n−1+(x−i)n−1θ(x−i)
Di conseguenza, poiché è una funzione uniforme ovunque, qualsiasi comportamento singolare del PDF si verificherà solo nei punti in cui è singolare (ovviamente solo ) e in quei luoghi spostati a destra di . La natura di quel comportamento singolare - il grado di scorrevolezza - sarà quindi la stessa in tutte le posizioni .xn−1θ(x)01,2,…,nn+1
Ad illustrare questa è l'immagine di , che mostra (nel pannello di sinistra) i singoli termini nella somma e (nel pannello di destra) le somme parziali, che culminano nella somma stessa (curva nera solida):n=8
Commenti di chiusura
E 'utile notare che questo ultimo approccio ha finalmente dato un compatto, un'espressione pratica per calcolare il PDF di una somma di variabili uniformi iid. (Allo stesso modo si ottiene una formula per il CDF.)n
Il teorema del limite centrale ha poco da dire qui. Dopotutto, una somma di variabili binomiali iid converge in una distribuzione normale, ma quella somma è sempre discreta: non ha nemmeno un PDF! Non dovremmo sperare in alcuna intuizione sul "nodo" o su altre misure di differenziabilità di un PDF proveniente dal CLT.