Perché la somma di due variabili casuali è una convoluzione?


33

Per molto tempo non ho capito perché la "somma" di due variabili casuali sia la loro convoluzione , mentre una somma della funzione di densità della miscela di e èf(x)g(x)pf(x)+(1p)g(x)n; la somma aritmetica e non la loro convoluzione. La frase esatta "la somma di due variabili casuali" appare in google 146.000 volte ed è ellittica come segue. Se si considera che un camper produce un singolo valore, allora quel singolo valore può essere aggiunto a un altro valore singolo camper, che non ha nulla a che fare con la convoluzione, almeno non direttamente, tutto ciò che è è una somma di due numeri. Un risultato di camper in statistica è comunque una raccolta di valori e quindi una frase più esatta sarebbe qualcosa del tipo "l'insieme di somme coordinate di coppie di valori individuali associati da due camper è la loro convoluzione discreta" ... e può essere approssimato dal convoluzione delle funzioni di densità corrispondenti a quelle dei camper. Un linguaggio ancora più semplice: 2 camper din-samples sono in effetti vettori bidimensionali che si sommano come somma vettoriale.

Si prega di mostrare i dettagli di come la somma di due variabili casuali sia una convoluzione e una somma.


6
Non credo davvero che sia "somma" in un senso algebrico astratto . Quando facciamo una "somma di variabili", ci riferiamo alla tipica operazione aritmetica come sappiamo quando si aggiungono numeri naturali o numeri reali. Ciò significa che creiamo una nuova variabile "sommando" le altre variabili. La nozione di "somma di variabili" esiste anche al di fuori del regno delle statistiche ed è indipendente dalle espressioni su convoluzioni e probabilità. Quindi, in verità "la somma delle variabili è una convoluzione", è sbagliata. Ma nessuno lo sta insinuando. Dovremmo cambiare la parola "è" in questa affermazione.
Sesto Empirico

5
È come sostenere che non dovrebbe essere chiamato "il prodotto di due funzioni f e g" (o interpretato solo come una nozione algebrica astratta di "prodotto") perché è una convoluzione in termini delle trasformate di Fourier di quelle funzioni. f(x)g(x)
Sesto Empirico

16
L '"avviso" è fuorviante. Una somma di variabili casuali e si intende esattamente nello stesso senso in cui "somma" è compresa dagli scolari: per ogni , il valore viene trovato aggiungendo i numeri eNon c'è niente di astratto al riguardo. Questi camper hanno distribuzioni. Esistono molti modi per rappresentare le distribuzioni. La funzione di distribuzione di è la convoluzione dei DF di e ; la funzione caratteristica di è il prodottoXYω(X+Y)(ω)X(ω)X + Y X Y X + YY(ω).X+YXYX+Ydei loro CF; la funzione di generazione cumulativa di è la somma dei loro CGF; e così via. X+Y
whuber

3
Non vedo variabili casuali o distribuzioni nel tuo calcolo.
whuber

8
Nella lingua del mio post su stats.stackexchange.com/a/54894/919 , una coppia di variabili casuali costituita da una scatola di biglietti su ciascuno dei quali sono scritti due numeri, uno designato e l'altro La somma di queste variabili casuali si ottiene aggiungendo i due numeri trovati su ciascun ticket. Il calcolo è letteralmente un compito che potresti assegnare a un'aula di terza elementare. (Sottolineo questo punto per enfatizzare sia la semplicità fondamentale dell'operazione, sia per mostrare quanto sia fortemente connessa con ciò che tutti intendono per "somma").X Y .(X,Y)XY.
whuber

Risposte:


14

I calcoli della convoluzione associati alle distribuzioni di variabili casuali sono tutte manifestazioni matematiche della Legge della Probabilità totale .


Nella lingua del mio post su Cosa si intende per "variabile casuale"? ,

Una coppia di variabili casuali è costituito da una scatola di biglietti su ciascuno dei quali sono scritti due numeri, uno designato e l'altro . La somma di queste variabili casuali si ottiene aggiungendo i due numeri trovati su ciascun ticket.(X,Y)XY

Ho pubblicato una foto di una tale scatola e dei suoi biglietti a Chiarire il concetto di somma di variabili casuali .

inserisci qui la descrizione dell'immagine

Questo calcolo è letteralmente un compito che potresti assegnare a un'aula di terza elementare. (Sottolineo questo punto per enfatizzare sia la semplicità fondamentale dell'operazione, sia per mostrare quanto sia fortemente connessa con ciò che tutti comprendono una "somma" per significare.)

Il modo in cui la somma delle variabili casuali viene espressa matematicamente dipende dal modo in cui rappresenti il ​​contenuto del riquadro:

I primi due sono speciali nella misura in cui la casella potrebbe non avere un pmf, pdf o mgf, ma ha sempre un cdf, cf e cgf.


Per capire perché la convoluzione è il metodo appropriato per calcolare il pmf o il pdf di una somma di variabili casuali, considerare il caso in cui tutte e tre le variabili e hanno un pmf: per definizione, il pmf per in qualsiasi numero indica la proporzione di ticket nella casella in cui la somma uguale a scrittaX, Y,X+YX+YzX+Yz,Pr(X+Y=z).

Il pmf della somma si ottiene suddividendo il set di ticket in base al valore di scritto su di essi, seguendo la Legge della Probabilità totale, che afferma che le proporzioni (di sottoinsiemi disgiunti) si sommano. Più tecnicamente,X

La proporzione di biglietti trovati all'interno di una raccolta di sottoinsiemi disgiunti della scatola è la somma delle proporzioni dei singoli sottoinsiemi.

Si applica così:

La proporzione di biglietti dove , scritto deve essere uguale la somma su tutti i possibili valori della proporzione dei biglietti dove e scritteX+Y=zPr(X+Y=z),xX=xX+Y=z,Pr(X=x,X+Y=z).

Poiché e implica questa espressione può essere riscritta direttamente in termini di variabili originali e comeX=xX+Y=zY=zx,XY

Pr(X+Y=z)=xPr(X=x,Y=zx).

Questa è la convoluzione.


modificare

Si noti che sebbene le convoluzioni siano associate a somme di variabili casuali, le convoluzioni non sono convoluzioni delle variabili casuali stesse!

In effetti, nella maggior parte dei casi non è possibile convolgere due variabili casuali. Perché ciò funzioni, i loro domini devono avere una struttura matematica aggiuntiva. Questa struttura è un gruppo topologico continuo.

Senza entrare nei dettagli, basti dire che la convoluzione di due funzioni deve assomigliare in modo astratto a qualcosa di simileX,Y:GH

(XY)(g)=Σh,Ksol|h+K=gX(h)Y(K).

(La somma potrebbe essere un integrale e, se questo produrrà nuove variabili casuali da quelle esistenti, deve essere misurabile ogni volta che e sono; è qui che deve entrare in qualche considerazione la topologia o la misurabilità.)XYXY

Questa formula richiama due operazioni. Uno è la moltiplicazione su deve avere senso moltiplicare i valori e L'altro è l'aggiunta su deve avere senso aggiungere elementi diH:X(h)HY(K)H.sol:G .sol.

Nella maggior parte delle applicazioni di probabilità, è un insieme di numeri (reali o complessi) e la moltiplicazione è la solita. Ma lo spazio campione, spesso non ha alcuna struttura matematica. Ecco perché la convoluzione di variabili casuali di solito non è nemmeno definita. Gli oggetti coinvolti nelle convoluzioni in questo thread sono rappresentazioni matematiche delle distribuzioni di variabili casuali. Sono utilizzati per calcolare la distribuzione di una somma di variabili casuali, data la distribuzione congiunta di tali variabili casuali.HG ,sol,


Riferimenti

Stuart e Ord, Advanced Theory of Statistics di Kendall, Volume 1. Quinta edizione, 1987, Capitoli 1, 3 e 4 ( Distribuzioni di frequenza, Momenti e Cumulanti e Funzioni caratteristiche ).


L'associatività con la moltiplicazione scalare da proprietà algebriche riferisce che per qualsiasi numero reale (o complesso) . Considerando che una bella proprietà è che la convoluzione di due funzioni di densità è una funzione di densità, non si è limitati alla convoluzione di funzioni di densità e la convoluzione non è in genere un trattamento di probabilità, certo che può essere, ma può essere un trattamento di serie temporali, ad esempio, un trattamento del deflusso idrico nei laghi dopo una pioggia, un modello di concentrazione della droga dopo il dosaggio, ecc.a
un'(f*g)=(un'f)*g
un'
Carl,

@Carl Come si comporta quel commento con la tua domanda originale, che chiede somme di variabili casuali ? Nella migliore delle ipotesi è tangenziale.
whuber

Ti sto chiedendo di non generalizzare eccessivamente. Iniziare una frase con "la convoluzione è" senza dire "la convoluzione di camper è" è ellittica. Il mio intero problema qui era con la notazione ellittica. L'aggiunta vettoriale di due vettori dello spazio è una convoluzione, indipendentemente dal fatto che tali vettori siano o meno normalizzati. Se sono normalizzati, non hanno bisogno di essere probabilità, questa è tutta la verità, non solo una parte di essa. n
Carl

Grazie: chiarirò la prima frase per sottolineare che sto rispondendo alla tua domanda.
whuber

La nuova aggiunta è vera per la convoluzione dei camper, che è tecnicamente ciò che ho chiesto. E forse sono equivoco, ma la convoluzione non è sempre dei camper ma può sempre essere ridotta ad alcuni fattori di scala delle funzioni di densità volte a quelle funzioni di densità, dove gli scalari sono moltiplicativi e dove le funzioni di densità sono talvolta camper, nel qual caso i fattori di scala sono l'identità moltiplicativa, vale a dire 1.
Carl

41

Notazione, maiuscole e minuscole

https://en.wikipedia.org/wiki/Notation_in_probability_and_statistics

  • Le variabili casuali sono solitamente scritte in lettere maiuscole romane: , , ecc.XY
  • Realizzazioni particolari di una variabile casuale sono scritte in lettere minuscole corrispondenti. Ad esempio , ,…, potrebbe essere un campione corrispondente alla variabile casuale e una probabilità cumulativa viene formalmente scritta per differenziare la variabile casuale dalla realizzazione.X1X2XnXP(X>X)

Z=X+Y significazio=Xio+yioXio,yio


Miscela di variabili -> somma di pdf

https://en.wikipedia.org/wiki/Mixture_distribution

Si utilizza una somma delle funzioni di densità di probabilità e quando la probabilità (ad esempio Z) è definita da una singola somma di probabilità diverse.fX1fX2

Per esempio quando è una frazione di tempo definito da e una frazione del tempo definito da , quindi si ottiene eZSX11-SX2

P(Z=z)=SP(X1=z)+(1-S)P(X2=z)
fZ(z)=SfX1(z)+(1-S)fX2(z)

. . . . un esempio è una scelta tra i tiri di dado con un dado a 6 facce o un dado a 12 facce. Supponi di fare il 50-50 percento delle volte in cui un dado o l'altro. Quindi

fmioXedroll(z)=0.5f6-Sioded(z)+0.5f12-Sioded(z)


Somma delle variabili -> convoluzione dei pdf

https://en.wikipedia.org/wiki/Convolution_of_probability_distributions

Si utilizza una convoluzione delle funzioni di densità di probabilità e quando la probabilità (ad esempio Z) è definita da più somme di probabilità diverse (indipendenti).fX1fX2

Ad esempio quando (cioè una somma!) E più coppie diverse sommano a , con ciascuna la probabilità . Quindi ottieni la convoluzioneZ=X1+X2 x 1 , x 2 z f X 1 ( x 1 ) f X 2 ( x 2 ) P ( Z = z ) = tutte le coppie  x 1 + x 2 = z P ( X 1 = x 1 ) P ( X 2 = x 2 )X1,X2zfX1(X1)fX2(X2)

P(Z=z)=Σtutte le coppie X1+X2=zP(X1=X1)P(X2=X2)

e

fZ(z)=ΣX1 dominio di X1fX1(X1)fX2(z-X1)

o per variabili continue

fZ(z)=X1 dominio di X1fX1(X1)fX2(z-X1)dX1

. . . . un esempio è la somma di due tiri di dado per efX2(X)=fX1(X)=1/6X{1,2,3,4,5,6}

fZ(z)=ΣX{1,2,3,4,5,6} e z-X{1,2,3,4,5,6}fX1(X)fX2(z-X)

nota ho scelto di integrare e sommare , che trovo più intuitivo, ma non è necessario e puoi integrare da a se definisci al di fuori del dominio.X1 dominio di X1-fX1(X1)=0

Esempio di immagine

esempio di "somma delle variabili" risultante in "convoluzione di pdf"

Lasciate sia . Per conoscere dovrai integrarti sulle probabilità per tutte le realizzazioni di che portare a .ZX+YP(z-12dz<Z<z+12dz)X,yz-12dz<Z=X+Y<z+12dz

Quindi questo è l'integrale di nella regione lungo la linea .f(X)g(y)±12dzX+y=z


Scritto da StackExchangeStrike


6
@Carl non è in gergo. La convoluzione può davvero essere vista come una somma di molte somme. Ma questo non è ciò a cui si riferisce "la somma delle variabili" . Si riferisce a cose come quando parliamo di una "somma di due tiri di dado", che ha un significato e un'interpretazione molto normali nella vita di tutti i giorni (specialmente quando giochiamo a un gioco da tavolo). Preferiresti dire che prendiamo una combinazione di due tiri di dado quando utilizziamo la somma algebrica di due tiri di dado?
Sesto Empirico

2
La probabilità di tirare 7 con la (singola) somma di due dadi è la somma di (molte) probabilità per il lancio di 1-6, 2-5, 3-4, 4-3, 5-2, 6-1. Il termine somma si verifica due volte e nel primo caso, quando si riferisce a una singola espressione di somma, è ciò a cui si riferisce la frase "somma di due variabili", come in "somma di due tiri di dado".
Sesto Empirico

5
In effetti, l'integrale sostituisce la somma delle probabilità. Ma ciò riguarda il secondo uso del termine somma, non il primo uso del termine somma. Quindi possiamo ancora fare riferimento alla somma di due variabili (che è il primo utilizzo del termine). Questo perché il termine "somma" non viene utilizzato per fare riferimento all'operazione di convoluzione o operazione di sommatoria delle probabilità, ma alla somma delle variabili.
Sesto Empirico

8
almeno non è in gergo affermare "la densità di probabilità per una somma di tiri di dado è definita dalla convoluzione delle densità di probabilità per i singoli tiri di dado". Il termine "una somma di lanci di dadi" ha un'interpretazione molto normale nella vita di tutti i giorni quando non ci sono statistici in giro con il loro gergo. È in questo senso (somma dei tiri di dado) che devi interpretare (somma delle variabili). Questo passaggio non è né in gergo. Le persone usano continuamente "somme di variabili". È solo lo statistico che pensa alle probabilità di queste somme e inizia ad applicare le convoluzioni
Sesto Empirico

2
@Carl: penso che tu abbia frainteso la mia affermazione. Stavi dicendo che non è bene chiamare una integrale di convoluzione una somma, implicando che qualcuno chiama l'integrale di convoluzione una somma. Ma nessuno qui sta dicendo questo. Ciò che è stato detto è che un integrale di convoluzione è il pdf della somma di alcune variabili. Stavi cambiando l'affermazione in qualcosa di falso e poi ti sei lamentato del fatto che è falso.

28

La tua confusione sembra derivare dalla fusione di variabili casuali con le loro distribuzioni.

Per "disimparare" questa confusione, potrebbe essere utile fare un paio di passi indietro, svuotare la mente per un momento, dimenticare eventuali formalismi fantasiosi come spazi di probabilità e sigma-algebre (se aiuta, fingere di essere di nuovo alle elementari e non ho mai sentito parlare di nessuna di queste cose!) e pensa solo a ciò che una variabile casuale rappresenta fondamentalmente: un numero di cui non siamo sicuri .

Ad esempio, supponiamo di avere un dado a sei facce in mano. (Davvero. In effetti, ne ho un sacco intero.) Non l'ho ancora lanciato, ma sto per farlo, e decido di chiamare il numero che non ho ancora tirato su quel dado il nome " ".X

Cosa posso dire di questa , senza effettivamente lanciare il dado e determinarne il valore? Bene, posso dire che il suo valore non sarà , o . In effetti, posso dire con certezza che sarà un numero intero compreso tra e , inclusi, poiché questi sono gli unici numeri segnati sul dado. E poiché ho comprato questo sacco di dadi da un produttore rispettabile, posso essere abbastanza sicuro che quando lancio il dado e determino quale sia effettivamente il numero , è ugualmente probabile che sia uno di quei sei possibili valori, o quanto più vicino a quello come posso determinare.7 - 1 1X7-1 16X1216X

In altre parole, la mia è una variabile casuale a valore intero distribuita uniformemente sull'insieme .{ 1 , 2 , 3 , 4 , 5 , 6 }X{1,2,3,4,5,6}


OK, ma sicuramente tutto ciò che è ovvio, quindi perché continuo a sostenere cose così banali che sicuramente conosci già? È perché voglio fare un altro punto, che è anche banale ma, allo stesso tempo, di fondamentale importanza: posso fare matematica con questa , anche se non ne conosco ancora il valore!X

Ad esempio, posso decidere di aggiungerne uno al numero che lancerò sul dado e chiamare quel numero con il nome " ". Non saprò quale numero sarà questa , poiché non so quale sarà finché non avrò tirato il dado, ma posso ancora dire che sarà uno maggiore di , o in termini matematici, .Q Q X Q X Q = X + 1XQQXQXQ=X+1

E questa sarà anche una variabile casuale, perché non ne conosco ancora il valore; So solo che sarà uno più grande di . E perché so quali valori può assumere, e come probabile è quello di prendere ciascuno di questi valori, posso anche stabilire quelle cose per . E anche tu, abbastanza facilmente. Non avrai davvero bisogno di formalismi o calcoli fantasiosi per capire che sarà un numero intero compreso tra e e che è altrettanto probabile (supponendo che il mio dado sia equo e ben bilanciato come penso) da prendere uno di questi valori.X X Q Q 2 7QXXQQ27

Ma c'è di più! Potrei anche decidere di moltiplicare il numero che lancerò sul dado per tre e chiamare il risultato . E questa è un'altra variabile casuale, e sono sicuro che puoi capirne anche la distribuzione, senza dover ricorrere a integrali o convoluzioni o algebra astratta.R = 3 XXR=3X

E se volessi davvero, potrei persino decidere di prendere il numero ancora da determinare e di piegarlo, mandriarlo e mutilarlo dividerlo per due, sottrarne uno e squadrare il risultato. E il numero risultante è ancora un'altra variabile casuale; questa volta, non sarà né valorizzato per intero né distribuito uniformemente, ma puoi ancora capirne la distribuzione abbastanza facilmente usando solo la logica elementare e l'aritmetica.S = ( 1XS=(12X-1)2


OK, quindi posso definire nuove variabili casuali inserendo il mio tiro di dado sconosciuto in varie equazioni. E allora? Bene, ricordi quando ho detto che avevo un intero sacco di dadi? Consentitemi di prenderne un altro e chiamare il numero sul quale farò rotolare quel dado con il nome " ".YXY

Quei due dadi che ho preso dalla borsa sono praticamente identici - se li scambiassi quando non stavo guardando, non sarei in grado di dirlo - quindi posso tranquillamente presumere che questa avrà anche la stessa distribuzione di . Ma quello che voglio davvero fare è tirare entrambi i dadi e contare il numero totale di semi su ciascuno di essi . E quel numero totale di pips, che è anche una variabile casuale dal momento che non lo so ancora , chiamerò " ".X TYXT

Quanto sarà grande questo numero ? Ebbene, se è il numero di punti che scorrerà sulle prima matrice, e è il numero di punti che scorrerà sulle secondo dado, allora chiaramente sia la loro somma, ossia . E posso dire che, poiché e sono entrambi compresi tra uno e sei, deve essere almeno due e al massimo dodici. E poiché e sono entrambi numeri interi, anche deve essere chiaramente un numero intero.X Y T T = X + Y X Y T X Y TTXYTT=X+YXYTXYT


Ma quanto è probabile che prenda ciascuno dei suoi possibili valori tra due e dodici? Sicuramente non è altrettanto probabile prenderli ciascuno - un po 'di sperimentazione rivelerà che è molto più difficile tirare un dodici su una coppia di dadi piuttosto che lanciare, diciamo, un sette.T

Per capirlo, lasciami indicare la probabilità che lanci il numero sul primo dado (quello il cui risultato ho deciso di chiamare ) con l'espressione . Allo stesso modo, indicherò la probabilità che lanci il numero sul secondo dado di . Naturalmente, se i miei dadi sono perfettamente equa ed equilibrata, quindi per qualsiasi e tra uno e sei, ma ci potrebbe anche prendere in considerazione la più generale caso in cui i dadi potrebbero effettivamente essere di parte, e più probabilità di tirare alcuni numeri rispetto ad altri.X Pr [ X = a ] b Pr [ Y = b ] Pr [ X = a ] = Pr [ Y = b ] = 1un'XPr[X=un']BPr[Y=B] abPr[X=un']=Pr[Y=B]=16un'B

Ora, dal momento che i due tiri di dado saranno indipendenti (non sto di certo intenzione di barare e regolando uno dei quali basati su l'altro!), La probabilità che io rotolare sul primo stampo e al secondo semplicemente essere il prodotto di tali probabilità:b Pr [ X = un  e  Y = b ] = Pr [ X = un ] Pr [ Y = b ] .un' B

Pr[X=un' e Y=B]=Pr[X=un']Pr[Y=B].

(Nota che la formula sopra vale solo per coppie indipendenti di variabili casuali; certamente non lo sarebbe se sostituissimo sopra con, diciamo, !)QYQ

Ora, ci sono diversi possibili valori di e che potrebbero produrre lo stesso totale ; per esempio, potrebbe derivare altrettanto da e come da e , o anche da e . Ma se avessi già lanciato il primo dado e conoscessi il valore di , allora potrei dire esattamente quale valore dovrei tirare sul secondo dado per raggiungere un dato numero totale di pip.Y T T = 4 X = 1 Y = 3 X = 2 Y = 2 X = 3 Y = 1 XXYTT=4X=1Y=3X=2Y=2X=3Y=1X

In particolare, supponiamo che siamo interessati alla probabilità che , per qualche numero . Ora, se so dopo aver lanciato il primo dado che , allora potrei ottenere il totale tirando sul secondo dado. E, naturalmente, sappiamo già, senza tirare alcun dado, che la probabilità a priori di tirare sul primo dado sul secondo dado èc X = un T = c Y = c - un una c - un Pr [ X = un  e  Y = c - un ] = Pr [ X = un ] Pr [ Y = C - una ] .T=ccX=un'T=cY=c-un'un'c-un'

Pr[X=un' e Y=c-un']=Pr[X=un']Pr[Y=c-un'].

Ma ovviamente, ci sono molti modi possibili per raggiungere lo stesso totale , a seconda di cosa finisco col lanciare sul primo dado. Per ottenere la probabilità totale di rotolamento pips su due dadi, ho bisogno di sommare le probabilità di tutti i diversi modi ho potuto rotolare quella totale. Ad esempio, la probabilità totale che lancerò un totale di 4 pips sui due dadi sarà:Pr [ T = c ] c Pr [ T = 4 ] = Pr [ X = 1 ] Pr [ Y = 3 ] + Pr [ X = 2 ] Pr [ Y = 2 ] + Pr [ X = 3 ] Pr [ Y = 1 ] + Pr [ X = 4 ]cPr[T=c]c

Pr[T=4]=Pr[X=1]Pr[Y=3]+Pr[X=2]Pr[Y=2]+Pr[X=3]Pr[Y=1]+Pr[X=4]Pr[Y=0]+...

Nota che sono andato un po 'troppo in là con quella somma sopra: sicuramente non può essere ! Ma matematicamente non è un problema; dobbiamo solo definire la probabilità di eventi impossibili come (o o o ) come zero. E in questo modo, otteniamo una formula generica per la distribuzione della somma di due tiri di dado (o, più in generale, di due variabili casuali indipendenti con valore intero):0 Y = 0 Y = 7 Y = - 1 Y = 1Y0Y=0Y=7Y=-1Y=12

T=X+YPr[T=c]=Σun'ZPr[X=un']Pr[Y=c-un'].

E potrei benissimo fermare la mia esposizione qui, senza mai menzionare la parola "convoluzione"! Ma ovviamente, se ti capita di sapere come appare una convoluzione discreta , potresti riconoscerne uno nella formula sopra. E questo è un modo abbastanza avanzato per affermare il risultato elementare derivato sopra: la funzione di massa di probabilità della somma di due variabili casuali con valore intero è la convoluzione discreta delle funzioni di massa di probabilità dei sommari.

E ovviamente, sostituendo la somma con una massa integrale e di probabilità con una densità di probabilità , otteniamo un risultato analogo anche per variabili casuali distribuite continuamente. E estendendo sufficientemente la definizione di una convoluzione, possiamo persino farla applicare a tutte le variabili casuali, indipendentemente dalla loro distribuzione - anche se a quel punto la formula diventa quasi una tautologia, poiché avremo praticamente definito la convoluzione di due le distribuzioni di probabilità arbitrarie sono la distribuzione della somma di due variabili casuali indipendenti con tali distribuzioni.

Ma anche così, tutta questa roba con convoluzioni e distribuzioni e PMF e PDF è in realtà solo un insieme di strumenti per calcolare cose su variabili casuali. Gli oggetti fondamentali che stiamo calcolando le cose riguardo sono le variabili aleatorie stessi, che in realtà sono solo i numeri i cui valori non siamo sicuri circa .

E inoltre, quel trucco di convoluzione funziona solo per somme di variabili casuali, comunque. Se volessi sapere, diciamo, la distribuzione di o , dovresti capirlo usando metodi elementari e il risultato non sarebbe una convoluzione.V = X YU=XYV=XY


Addendum: se desideri una formula generica per calcolare la distribuzione della somma / prodotto / esponenziale / qualunque combinazione di due variabili casuali, ecco un modo per scriverne una: dove sta per un'operazione binaria arbitraria e è una parentesi Iverson , ovvero[ a = b c ] [ a = b c ] = { 1 se  a = b c ,  e 0 altrimenti .

UN=BCPr[UN=un']=ΣB,cPr[B=B e C=c][un'=Bc],
[un'=Bc]
[un'=Bc]={1Se un'=Bc, e0altrimenti.

(La generalizzazione di questa formula per variabili casuali non discrete viene lasciata come un esercizio di formalismo prevalentemente inutile. Il caso discreto è abbastanza sufficiente per illustrare l'idea essenziale, con il caso non discreto che aggiunge solo un mucchio di complicazioni irrilevanti.)

Puoi verificare che questa formula funzioni davvero, ad esempio per l'addizione e che, nel caso speciale dell'aggiunta di due variabili casuali indipendenti , è equivalente alla formula di "convoluzione" fornita in precedenza.

Naturalmente, in pratica, questa formula generale è molto meno utile per il calcolo, poiché comporta una somma su due variabili illimitate invece di una sola. Ma a differenza della formula a somma singola, funziona per funzioni arbitrarie di due variabili casuali, anche non invertibili, e mostra anche esplicitamente l'operazione invece di mascherarla come inversa (come la formula "convoluzione" nasconde l'aggiunta come sottrazione).


Ps. Ho appena lanciato i dadi. Si scopre che e , il che implica che , , , , e . Ora sapete. ;-)Y = 6 Q = 6 R = 15 S = 2,25 T = 11 U = 30 V = 15625X=5Y=6Q=6R=15S=2.25T=11U=30V=15625


4
Questa dovrebbe essere la risposta accettata! Molto intuitivo e chiaro!
Vladislavs Dovgalecs

3
@Carl: Il punto che sto cercando di fare è che la somma delle variabili casuali è davvero una somma semplice: . Se desideriamo calcolare la distribuzione di , allora dovremo fare qualcosa di più complicato, ma questo è un problema secondario. La variabile casuale non è la sua distribuzione. (In effetti, una variabile casuale non è nemmeno completamente caratterizzata dalla sua distribuzione, poiché la distribuzione (marginale) da sola non codifica le informazioni sulle sue possibili dipendenze con altre variabili.)TT=X+YT
Ilmari Karonen

3
@Carl: ... In ogni caso, se volessi introdurre un simbolo speciale per "aggiunta di variabili casuali", allora per coerenza dovresti anche avere simboli speciali per "moltiplicazione di variabili casuali" e "divisione di variabili casuali" e "esponenziazione di variabili casuali" e "logaritmo di variabili casuali" e così via. Tutte queste operazioni sono perfettamente ben definite su variabili casuali, viste come numeri con un valore incerto , ma in tutti i casi il calcolo della distribuzione del risultato è molto più complicato del semplice calcolo corrispondente per le costanti.
Ilmari Karonen,

5
@Carl: la confusione scompare quando smetti di confondere una variabile casuale con la sua distribuzione. Prendere la distribuzione di una variabile casuale non è un'operazione lineare in alcun senso significativo, quindi la distribuzione della somma di due variabili casuali non è (di solito) la somma delle loro distribuzioni. Lo stesso vale per qualsiasi operazione non lineare. Sicuramente non sei confuso dal fatto che , quindi perché dovresti essere confuso dal fatto che ? Pr[X+Y=c]Pr[X=c]+Pr[Y=c]X+yX+yPr[X+Y=c]Pr[X=c]+Pr[Y=c]
Ilmari Karonen,

3
@Carl: Aspetta, cosa? I rotoli di due dadi, annotare i risultati e , e quindi calcolare . In che modo questa divisione non è ordinaria? (E sì, è ancora una divisione ordinaria anche se lo faccio prima di tirare i dadi. In tal caso, i valori di e non sono ancora fissi, e quindi non è nemmeno il valore di )Y Z = X / Y X Y ZXYZ=X/YXYZ
Ilmari Karonen

7

In realtà non credo sia giusto, a meno che non ti fraintenda.

Se e sono variabili casuali indipendenti, la relazione somma / convoluzione a cui ti riferisci è la seguente: Cioè, la funzione di densità di probabilità (pdf) della somma è uguale alla convoluzione (indicata con la operatore) dell'individuo PDF di e .Y p ( X + Y ) = p ( X ) p ( Y ) X YXY

p(X+Y)=p(X)p(Y)
XY

Per capire perché, considera che per un valore fisso di , la somma segue il pdf di , spostato di un importo . Quindi, se si considerano tutti i possibili valori di , la distribuzione di viene data sostituendo ogni punto in con una copia di centrata su quel punto (o viceversa), e quindi sommando tutte queste copie , che è esattamente ciò che è una convoluzione.S = X + Y Y x X S p ( X ) p ( Y )X=xS=X+YYxXSp(X)p(Y)

Formalmente, possiamo scrivere come: o, equivalentemente: p ( S ) = p X ( S - y ) p Y ( y ) d y

p(S)=pY(Sx)pX(x)dx
p(S)=pX(Sy)pY(y)dy

Modifica: speriamo di chiarire un po 'di confusione, vorrei riassumere alcune delle cose che ho detto nei commenti. La somma di due variabili casuali e non si riferisce alla somma delle loro distribuzioni. Si riferisce al risultato della somma delle loro realizzazioni. Per ripetere l'esempio che ho fornito nei commenti, supponiamo che e siano i numeri lanciati con un tiro di due dadi ( è il numero lanciato con un dado e il numero lanciato con l'altro). Quindi definiamoY X Y X Y S = X + Y X Y X YXYXYXYS=X+Ycome il numero totale lanciato con i due dadi insieme. Ad esempio, per un determinato lancio di dadi, potremmo lanciare un 3 e un 5, e quindi la somma sarebbe 8. La domanda ora è: come appare la distribuzione di questa somma e come si collega alle singole distribuzioni di e ? In questo esempio specifico, il numero lanciato con ogni dado segue una distribuzione uniforme (discreta) tra [1, 6]. La somma segue una distribuzione triangolare tra [1, 12], con un picco a 7. A quanto pare, questa distribuzione triangolare può essere ottenuta contorcendo le distribuzioni uniformi di e , e questa proprietà vale effettivamente per tutte le somme di ( variabili casuali indipendenti).XYXY


Sommare molte somme è più combinato di una singola somma degna di nota con un segno '+'. La mia preferenza sarebbe quella di dire che le variabili casuali si combinano per convoluzione.
Carl

6
Una convoluzione potrebbe essere definita una somma di molte somme, certo. Ma quello che devi capire è che la convoluzione si applica rigorosamente ai PDF delle variabili che vengono sommate. Le variabili stesse non sono contorte. Sono appena aggiunti l'uno all'altro e non c'è modo di interpretare quell'aggiunta come un'operazione di convoluzione (quindi la premessa di base della tua domanda, come è ora affermato, è errata).
Ruben van Bergen,

4
Stai fraintendendo quel riferimento. Afferma: la distribuzione di probabilità della somma di due o più variabili casuali indipendenti è la convoluzione delle loro singole distribuzioni . Non dice che una somma di due variabili casuali equivale a contrapporre quelle variabili. Dice che la distribuzione della somma è la convoluzione della distribuzione delle singole variabili. Una variabile casuale e la sua distribuzione sono due cose diverse.
Ruben van Bergen,

Certo, si può convolvere variabili casuali. Ma la proprietà somma / convoluzione che è ampiamente conosciuta e discussa in quell'articolo (e nella mia risposta sopra) non si occupa delle convoluzioni di variabili casuali. Si occupa in particolare delle somme di variabili casuali e delle proprietà della distribuzione di tale somma.
Ruben van Bergen,

1
("Certo, puoi convolgere variabili casuali". Puoi? La mia comprensione è stata che, poiché per ottenere la funzione di distribuzione della somma di variabili casuali si contrappongono le funzioni di massa / densità di ciascuna, molte persone parlano (liberamente) di distribuzioni contorte, e alcuni parlano (erroneamente) di variabili casuali contorte. Mi dispiace divagare, ma sono curioso.)
Scortchi - Reinstalla Monica

6

Inizia considerando l'insieme di tutti i possibili risultati distinti di un processo o esperimento. Sia una regola (non ancora specificata) per assegnare un numero a un dato risultato ; lascia che anche sia. Poi afferma una nuova regola di per l'assegnazione di un numero per un dato esito: aggiungere il numero che si ottiene dalla seguente regola al numero che si ottiene dalla seguente regola .XωYS=X+YSXY

Possiamo fermarci qui. Perché non dovrebbe essere chiamato somma?S=X+Y

Se continuiamo a definire uno spazio di probabilità , la funzione di massa (o densità) della variabile casuale (per questo sono ora le nostre regole) può essere ottenuta contorcendo la funzione di massa (o densità) di con quello di (quando sono indipendenti). Qui "contorto" ha il suo solito senso matematico . Ma la gente parla spesso di distribuzioni contorte, il che è innocuo; o a volte anche di variabili casuali contorte, che apparentemente non lo sono — se suggerisce di leggere " " come " ", e quindi che "S=X+YXYX+YX convoluted with Y+"nel primo rappresenta un'operazione complessa in qualche modo analoga o estesa all'idea di aggiunta piuttosto che aggiunta semplice e chiara. Spero sia chiaro dall'esposizione sopra, fermandosi dove ho detto che potremmo, che già perfettamente senso prima che la probabilità sia persino portata in scena.X+Y

In termini matematici, le variabili casuali sono funzioni il cui co-dominio è l'insieme di numeri reali e il cui dominio è l'insieme di tutti i risultati. Quindi il " " in " " (o " ", per mostrare esplicitamente i loro argomenti) ha esattamente lo stesso significato del " " in " ". Va bene pensare a come sommeresti i vettori dei valori realizzati, se aiuta l'intuizione; ma ciò non dovrebbe generare confusione sulla notazione usata per somme di variabili casuali stesse.+X+YX(ω)+Y(ω)+sin(θ)+cos(θ)


[Questa risposta cerca semplicemente di mettere insieme i punti succinti di @MartijnWeterings, @IlmariKaronen, @RubenvanBergen e @whuber nelle loro risposte e commenti. Ho pensato che potesse aiutare a venire dalla direzione di spiegare cos'è una variabile casuale piuttosto che cos'è una convoluzione. Grazie a tutti!]


(+1) Per sforzo. Risposta troppo profonda per me fathom. Tuttavia, mi ha portato a uno. Per favore, leggilo e fammi sapere i tuoi pensieri.
Carl

È la notazione ellittica che mi ha confuso: per tutti , in altre parole, aggiunta vettoriale . Se qualcuno avesse detto "aggiunta vettoriale" anziché "aggiunta" , non mi sarei grattato la testa chiedendomi cosa volesse dire, ma non avrei detto. Si=Xi+Yii=1,2,3,...,n1,n
Carl

Bene, se metti le realizzazioni di e in vettori e desideri calcolare il vettore delle realizzazioni di , allora useresti l'aggiunta di vettori. Ma sembra piuttosto tangenziale. Dopotutto, sentiresti il ​​bisogno di spiegare ' ' usando i vettori o dire che il ' ' in quell'espressione significa aggiunta vettoriale? XYSsin(θ)+cos(ϕ)+
Scortchi - Ripristina Monica

Di fare ciò che? Il contesto era costituito da dati discreti, ad esempio RV, non funzioni continue, ad esempio PDF o , e è una somma ordinaria. sin(θ)sin(θ)+cos(ϕ)
Carl,

1
@Carl: (1) Se un biologo modella il no. le uova deposte nel nido di un'anatra come una Poisson rv, non stanno davvero tenendo conto della possibilità di un'infinità di uova. Se hai una domanda sul ruolo degli infiniti insiemi in Matematica, ponilo su Matematica o Filosofia SE. (2) Sebbene abbastanza standard, la nomenclatura può davvero indurre in errore; da qui la mia risposta.
Scortchi - Ripristina Monica

3

In risposta al tuo "Avviso", um, ... no.

Let , , e variabili aleatorie e lasciare . Poi, una volta che si sceglie e , si forza . Fai queste due scelte, in questo ordine, quando scrivi Ma questo è un convoluzione.XYZZ=X+YZXY=ZX

P(Z=z)=P(X=X)P(Y=z-X)dX.

Avviso sparito. (+1) a te per la cura.
Carl

2

Il motivo è lo stesso che i prodotti delle funzioni di potenza sono correlati alle convoluzioni. La convoluzione appare sempre in modo naturale, se si combina con oggetti che hanno un intervallo (ad es. I poteri di due funzioni di potenza o l'intervallo dei PDF) e in cui la nuova gamma appare come la somma delle gamme originali.

È più facile vedere valori medi. Affinché abbia un valore medio, entrambi devono avere valori medi o se uno ha un valore alto, l'altro deve avere un valore basso e viceversa. Ciò corrisponde alla forma della convoluzione, che ha un indice che va da valori alti a valori bassi mentre l'altro aumenta.X+y

Se guardi la formula per la convoluzione (per valori discreti, solo perché trovo più facile vedere lì)

(f*g)(n)=ΣKf(K)g(n-K)

allora vedi che la somma dei parametri delle funzioni ( e ) si somma sempre esattamente a . Quindi, ciò che sta realmente facendo la convoluzione, sta sommando tutte le possibili combinazioni, che hanno lo stesso valore.n-KKn

Per le funzioni di alimentazione otteniamo

(un'0+un'1X1+un'2X2+...+un'nXn)(B0+B1X1+B2X2+...+BmXm)=Σio=0m+nΣKun'K*Bio-KXio

che ha lo stesso schema di combinazione di esponenti alti da sinistra con esponenti bassi da destra o viceversa, per ottenere sempre la stessa somma.

Una volta che vedi, cosa sta realmente facendo la convoluzione qui, cioè quali termini vengono combinati e perché deve, quindi, apparire in molti luoghi, la ragione per la convoluzione delle variabili casuali dovrebbe diventare abbastanza ovvia.


2

Proviamo la supposizione per il caso continuo, quindi spieghiamo e illustriamo usando istogrammi costituiti da numeri casuali e le somme formate aggiungendo coppie ordinate di numeri in modo tale che la convoluzione discreta, ed entrambe le variabili casuali, siano tutte di lunghezza .n

Da Grinstead CM, Snell JL. Introduzione alla probabilità: American Mathematical Soc .; 2012. Ch. 7, Esercizio 1:

Consenti a e essere variabili casuali indipendenti con valori reali con funzioni di densità e , rispettivamente. Mostra che la funzione di densità della somma è la convoluzione delle funzioni e .XYfX(X)fY(y)X+YfX(X)fY(y)

Sia la variabile casuale unita . Quindi la funzione di densità articolare di è , poiché e sono indipendenti. Ora calcola la probabilità che , integrando la funzione di densità articolare sulla regione appropriata nel piano. Questo dà la funzione di ripartizione di .Z(X,Y)ZfX(X)fY(y)XYX+YzZ

FZ(z)=P(X+Yz)=(X,y):X+yzfX(X)fY(y)dydX
=-fX(X)[yz-XfY(y)dy]dX=-fX(X)[FY(z-X)]dX.

Ora differenzia questa funzione rispetto a per ottenere la funzione di densità di .zz

fZ(z)=dFZ(z)dz=-fX(X)fY(z-X)dX.

Per apprezzare ciò che ciò significa in pratica, questo è stato successivamente illustrato con un esempio. La realizzazione di un elemento numerico casuale (statistica: esito, informatica: istanza) da una distribuzione può essere vista come prendendo la funzione di densità cumulativa inversa di una funzione di densità di probabilità di una probabilità casuale. (Una probabilità casuale è, computazionalmente, un singolo elemento da una distribuzione uniforme sull'intervallo [0,1].) Questo ci dà un singolo valore sull'asse . Successivamente, generiamo un altro secondo elemento casuale dell'asse dal CDF inverso di un altro, possibilmente diverso, PDF di un secondo, probabilità casuale diversa. Abbiamo quindi due elementi casuali. Quando aggiunti, i dueXXX-valori così generati diventano un terzo elemento e, notate cosa è successo. I due elementi diventano ora un singolo elemento di magnitudo , ovvero le informazioni sono state perse. Questo è il contesto in cui si sta verificando l '"aggiunta"; è l'aggiunta diX1+X2X-valori. Quando si verificano ripetizioni multiple di questo tipo di addizione, la densità risultante di realizzazioni (densità dei risultati) delle somme tende verso il PDF della convoluzione delle singole densità. La perdita complessiva di informazioni provoca il livellamento (o la dispersione della densità) della convoluzione (o somme) rispetto ai PDF (o ai sommari) costituenti. Un altro effetto è lo spostamento della posizione della convoluzione (o somme). Si noti che le realizzazioni (risultati, istanze) di più elementi consentono solo elementi sparsi che popolano (esemplificando) uno spazio di campionamento continuo.

Ad esempio, sono stati creati 1000 valori casuali utilizzando una distribuzione gamma con una forma di e una scala di . Questi sono stati aggiunti a coppie a 1000 valori casuali da una distribuzione normale con una media di 4 e una deviazione standard di . Gli istogrammi in scala di densità di ciascuno dei tre gruppi di valori sono stati co-tracciati (riquadro sinistro in basso) e messi a contrasto (riquadro destro in basso) con le funzioni di densità utilizzate per generare i dati casuali, nonché la convoluzione di tali funzioni di densità. 10/921/4inserisci qui la descrizione dell'immagine

Come si vede nella figura, l'aggiunta della spiegazione delle somme sembra plausibile poiché le distribuzioni dei dati (rosso) del kernel lisciate nel pannello di sinistra sono simili alle funzioni di densità continua e alla loro convoluzione nel pannello di destra.


@whuber Finalmente, penso di aver capito. La somma è di eventi casuali. Dai un'occhiata alla mia spiegazione e dimmi se è chiaro ora, per favore.
Carl

3
Aiuta a stare attento con la lingua. Gli eventi sono insiemi . Raramente sono anche insiemi di numeri (ecco perché i loro elementi sono definiti "risultati"). Gli eventi non si aggiungono - lo fanno i valori delle variabili casuali. Il problema "incredibilmente complicato" è solo una distrazione. In effetti, se vuoi arrivare al nocciolo della questione, assicurati che uno dei riassunti nel tuo esempio sia una variabile casuale a media zero, poiché la media influisce su uno spostamento complessivo nella posizione. Volete capire intuitivamente cosa fa la convoluzione se non spostando la posizione.
whuber

@whuber Grazie-utile. Solo nelle statistiche il risultato è un singolo elemento di uno spazio campione. Per il resto di noi un risultato è il risultato di un evento. Smoothing AND shifting. Quello che mostro è l'esempio meno confuso di molti in quanto riduce la collisione dei grafici sovrapposti.
Carl

1
Vedo ora come stai pensando ai modelli di miscele. Stai costruendo quelli che a volte sono noti come "multiset". (Di solito viene usato un costruttore diverso dalle parentesi per chiarire la notazione.) L'idea sembra essere quella di una funzione di distribuzione empirica: la distribuzione empirica di un multiset e la distribuzione empirica di un multiset danno ascendere alla distribuzione empirica della loro unione multiset, che è la miscela delle due distribuzioni con pesi relativieA B | A | | B | .{,}UNB|UN||B|.
whuber

1
Penso di rilevare una potenziale fonte di confusione in queste modifiche in corso. Poiché ci vorrebbe troppo tempo per spiegarlo in un commento, ho aggiunto una modifica alla mia risposta nella speranza che possa aiutare un po '. In effetti, la prima riga originale della mia risposta era fuorviante su questo punto, quindi l'ho risolto anch'io con scuse.
whuber

1

Questa domanda potrebbe essere vecchia, ma mi piacerebbe fornire un'altra prospettiva. Si basa su una formula per un cambiamento di variabile in una densità di probabilità congiunta. Può essere trovato nelle Note della lezione: Probabilità e processi casuali a KTH, 2017 Ed. (Koski, T., 2017, pp 67), che a sua volta fa riferimento a una prova dettagliata in Analysens Grunder, del 2 (Neymark, M., 1970, pp 148-168):


Lascia che un vettore casuale abbia il pdf congiunto . Definisci un nuovo vettore casuale daX=(X1,X2,...,Xm)fX(X1,X2,...,Xm)Y=(Y1,Y2,...,Ym)

Yio=gio(X1,X2,...,Xm),io=1,2,...,m

dove è continuamente e è invertibile con l'inversogio(g1,g2,...,gm)

Xio=hio(Y1,Y2,...,Ym),io=1,2,...,m

Quindi il pdf congiunto di (nel dominio della invertibilità) èY

fY(y1,y2,...,ym)=fX(h1(X1,X2,...,Xm),h2(X1,X2,...,Xm),...,hm(X1,X2,...,Xm))|J|

dove è il determinante giacobinoJ

J=|X1y1X1y2...X1ymX2y1X2y2...X2ymXmy1Xmy2...Xmym|


Ora, applichiamo questa formula per ottenere il pdf congiunto di una somma di irvs :X1+X2

Definire il vettore casuale con pdf congiunto sconosciuto . Quindi, definire un vettore casuale diX=(X1,X2)fX(X1,X2)Y=(Y1,Y2)

Y1=g1(X1,X2)=X1+X2Y2=g2(X1,X2)=X2.

La mappa inversa è quindi

X1=h1(Y1,Y2)=Y1-Y2X2=h2(Y1,Y2)=Y2.

Pertanto, a causa di questo e del nostro presupposto che e siano indipendenti, il pdf congiunto di èX1X2Y

fY(y1,y2)=fX(h1(y1,y2),h2(y1,y2))|J|=fX(y1-y2,y2)|J|=fX1(y1-y2)fX2(y2)|J|

dove il Jacobiano èJ

J=|X1y1X1y2X2y1X2y2|=|1-101|=1

Per trovare il pdf di , emarginiamoY1=X1+X2

fY1=-fY(y1,y2)dy2=-fX(h1(y1,y2),h2(y1,y2))|J|dy2=-fX1(y1-y2)fX2(y2)dy2

che è dove troviamo la tua convoluzione: D


0

Le espressioni generali per le somme di n variabili casuali continue si trovano qui:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0216422

"Modelli multi-stadio per il fallimento di sistemi complessi, catastrofi a cascata e l'insorgenza di malattie"

Per variabili casuali positive, la somma può essere semplicemente scritta in termini di un prodotto di trasformazioni di Laplace e l'inverso del loro prodotto. Il metodo è adattato da un calcolo apparso nel libro di testo "Probability Theory" di ET Jaynes.


Benvenuti nel nostro sito. Potresti trovare interessante il thread su stats.stackexchange.com/questions/72479 e sul documento Moschopolous a cui fa riferimento.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.