Qual è la distribuzione di


17

Ho quattro variabili indipendenti uniformemente distribuite a,b,c,d , ciascuna in [0,1] . Voglio calcolare la distribuzione di (ad)2+4bc . Ho calcolato la distribuzione di u2=4bc in (quindi ), e di deve essere

f2(u2)=14lnu24
u2(0,4]u1=(ad)2
f1(u1)=1u1u1.
Ora, la distribuzione di una somma u1+u2 è ( u1,u2 sono anche indipendenti)
fu1+u2(x)=+f1(xy)f2(y)dy=14041xyxylny4dy,
perché y(0,4] . Qui deve essere x>y quindi l'integrale è uguale a
fu1+u2(x)=140x1xyxylny4dy.
Ora lo inserisco in Mathematica e ottengo quel
fu1+u2(x)=14[x+xlnx42x(2+lnx)].

Ho creato quattro set indipendenti a,b,c,d costituiti da 106 numeri ciascuno e ho disegnato un istogramma di (ad)2+4bc :

inserisci qui la descrizione dell'immagine

e ha disegnato un diagramma di :fu1+u2(x)

inserisci qui la descrizione dell'immagine

Generalmente, la trama è simile all'istogramma, ma nell'intervallo maggior parte è negativa (la radice è a 2.27034). E l'integrale della parte positiva è di .0,77(0,5)0.77

Dov'è l'errore? O dove mi manca qualcosa?

EDIT: ho ridimensionato l'istogramma per mostrare il PDF.

inserisci qui la descrizione dell'immagine

EDIT 2: Penso di sapere dov'è il problema nel mio ragionamento - nei limiti di integrazione. Poiché e , non posso semplicemente . La trama mostra la regione in cui devo integrarmi:x - y ( 0 , 1 ] x 0y(0,4]xy(0,1]0x

inserisci qui la descrizione dell'immagine

Questo significa che ho per (ecco perché parte della mia era corretta), in e in . Sfortunatamente, Mathematica non riesce a calcolare gli ultimi due integrali (beh, calcola il secondo, poiché c'è un'unità immaginaria nell'output che rovina tutto ... ). y ( 0 , 1 ] f x x - 1 y ( 1 , 4 ] 4 x - 1 y ( 4 , 5 ]0xy(0,1]fx1xy(1,4]x14y(4,5]

EDIT 3: sembra che Mathematica PUO calcolare gli ultimi tre integrali con il seguente codice:

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 && u1 > 0]

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,u1}, Assumptions -> 1 <= u2 <= 3 && u1 > 0]

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,4}, Assumptions -> 4 <= u2 <= 4 && u1 > 0]

che dà una risposta corretta :)


2
Mi piace che tu abbia provato a verificare la ragionevolezza della tua risposta mediante simulazione. Il tuo problema è che sai di aver fatto un errore, ma non riesci a capire bene dove. Hai considerato che puoi controllare ogni fase del tuo metodo per risolvere dove si trova l'errore? Ad esempio, l'errore risiede nel tuo ? Bene, puoi controllare il tuo PDF calcolato con risultati simulati proprio come hai fatto per la tua risposta finale. Idem per . Se e sono entrambi corretti, allora hai commesso l'errore combinandoli. Tale controllo passo-passo ti consente di individuare dove hai sbagliato! f 2 f 1 f 2f1(u1)f2f1f2
Pesce d'argento

Ho buttato via il mio primo tentativo e l'ho ricalcolato da zero. Credo che e siano corretti, anche se ho dovuto moltiplicare manualmente il mio iniziale per 2 per farlo normalizzare all'unità. Ma questo cambia solo l'altezza e non spiega perché ho negativo . f 2 f 1 ff1f2f1f
corey979,

Quando si generano tali istogrammi per confrontarli con le quantità algebriche calcolate, ridimensionare l'istogramma in modo che abbia una densità valida (e sovrapporli se è possibile). Fai un controllo simile per i tuoi f1 e f2 per assicurarti di avere quelli giusti; se hanno ragione (non ho ancora visto alcun buon motivo per sospettarli, ma è meglio ricontrollare), allora il problema deve essere più tardi.
Glen_b

Risposte:


19

Spesso aiuta a usare le funzioni di distribuzione cumulativa.

Primo,

F(x)=Pr((ad)2x)=Pr(|ad|x)=1(1x)2=2xx.

Il prossimo,

G(y)=Pr(4bcy)=Pr(bcy4)=0y/4dt+y/41ydt4t=y4(1log(y4)).

Lascia che compreso tra il più piccolo ( ) e il più grande ( ) valori possibili di . Scrivendo con CDF e con PDF , dobbiamo calcolare0 5 ( a - d ) 2 + 4 b c x = ( a - d ) 2 F y = 4 b c g = G δ05(ad)2+4bcx=(ad)2Fy=4bcg=G

H(δ)=Pr((ad)2+4bcδ)=Pr(xδy)=04F(δy)g(y)dy.

Possiamo aspettarci che questo sia cattivo - il PDF di distribuzione uniforme è discontinuo e quindi dovrebbe produrre interruzioni nella definizione di - quindi è piuttosto sorprendente che Mathematica ottenga una forma chiusa (che non riprodurrò qui). Differenziarlo rispetto a fornisce la densità desiderata. È definito a tratti entro tre intervalli. In ,H0 < δ < 1δ0<δ<1

H(δ)=h(δ)=18(8δ+δ((2+log(16)))+2(δ2δ)log(δ)).

In ,1<δ<4

h(δ)=14((δ+1)log(δ1)+δlog(δ)4δcoth1(δ)+3+log(4)).

E in ,4<δ<5

h(δ)=14(δ4δ4+(δ+1)log(4δ1)+4δtanh1((δ4)δδδδ4)1).

figura

Questa figura si sovrappone a un diagramma di su un istogramma di realizzazioni di . I due sono quasi indistinguibili, suggerendo la correttezza della formula per .h106(ad)2+4bch


Quella che segue è una soluzione Mathematica quasi senza cervello, a forza bruta . Automatizza praticamente tutto ciò che riguarda il calcolo. Ad esempio, calcolerà anche l'intervallo della variabile risultante:

ClearAll[ a, b, c, d, ff, gg, hh, g, h, x, y, z, zMin, zMax, assumptions];
assumptions = 0 <= a <= 1 && 0 <= b <= 1 && 0 <= c <= 1 && 0 <= d <= 1; 
zMax = First@Maximize[{(a - d)^2 + 4 b c, assumptions}, {a, b, c, d}];
zMin = First@Minimize[{(a - d)^2 + 4 b c, assumptions}, {a, b, c, d}];

Ecco tutta l'integrazione e la differenziazione. (Sii paziente; calcolare richiede un paio di minuti.)H

ff[x_] := Evaluate@FullSimplify@Integrate[Boole[(a - d)^2 <= x], {a, 0, 1}, {d, 0, 1}];
gg[y_] := Evaluate@FullSimplify@Integrate[Boole[4 b c <= y], {b, 0, 1}, {c, 0, 1}];
g[y_]  := Evaluate@FullSimplify@D[gg[y], y];
hh[z_] := Evaluate@FullSimplify@Integrate[ff[-y + z] g[y], {y, 0, 4}, 
          Assumptions -> zMin <= z <= zMax];
h[z_]  :=  Evaluate@FullSimplify@D[hh[z], z];

Infine, una simulazione e un confronto con il grafico di :h

x = RandomReal[{0, 1}, {4, 10^6}];
x = (x[[1, All]] - x[[4, All]])^2 + 4 x[[2, All]] x[[3, All]];
Show[Histogram[x, {.1}, "PDF"], 
 Plot[h[z], {z, zMin, zMax}, Exclusions -> {1, 4}], 
 AxesLabel -> {"\[Delta]", "Density"}, BaseStyle -> Medium, 
 Ticks -> {{{0, "0"}, {1, "1"}, {4, "4"}, {5, "5"}}, Automatic}]

8
(+1), in particolare per ricordare alle persone che, invece dicono delle circonvoluzioni della densità, "Spesso aiuta a usare le funzioni di distribuzione cumulativa", specialmente quando hanno una forma così semplice come qui. E anche tu sei stato dannatamente veloce.
Alecos Papadopoulos,

Sembra una soluzione chiara che mi piacerebbe accettare, subito dopo averlo capito. Sono più un uomo di calcolo che un probabilista; in questo momento ho tre domande: i) come hai usato il CDF per ottenere e , ii) perché ci sono e sotto l'integrale per , e iii) come fai dalla sua forma che il risultato della soluzione sarà a tratti?F(x)G(y)FgH
corey979,

(1) e sono i CDF. Sono calcolati dalla definizione di un CDF, come indicato dalle prime uguaglianze dopo le loro prime apparizioni. I dettagli dovrebbero essere evidenti nel codice che ho inserito. (2) Questa è la formula di convoluzione per una somma (spiegata più dettagliatamente in un calcolo simile su stats.stackexchange.com/a/144237 ). (3) Ho inserito un link ad un altro thread sulle proprietà delle distribuzioni uniformi. FG
whuber

7

Come l'OP e il whuber, userei l'indipendenza per suddividere questo in problemi più semplici:

X=(ad)2Xf(x)

inserisci qui la descrizione dell'immagine

Y=4bcYg(y)

inserisci qui la descrizione dell'immagine

X+YTransformSum

TransformSum[{f,g}, z]

che restituisce il pdf di Z=X+Y

inserisci qui la descrizione dell'immagine

Ecco una trama del pdf appena derivata, diciamo h(z)

inserisci qui la descrizione dell'immagine

Controllo rapido Monte Carlo

Il diagramma seguente confronta un'approssimazione empirica di Monte Carlo del pdf (blu ondulato) con il pdf teorico derivato sopra (tratteggiato rosso). Sembra a posto.

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.