Probabilità condizionale della variabile continua

Supponiamo che la variabile casuale segua una distribuzione Uniforme continua con i parametri 0 e 10 (cioè ) $U$ $U \sim \rm{U}(0,10)$

Ora denotiamo A l'evento che = 5 e B l'evento che è uguale a o 6. Secondo la mia comprensione, entrambi gli eventi hanno probabilità zero di accadere. $U$ $U$ $5$

Ora, se consideriamo di calcolare , non possiamo usare la legge condizionale , perché è uguale a zero. Tuttavia, la mia intuizione mi dice che . $P(A|B)$ $P\left( {A|B} \right) = \frac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}}$ $P(B)$ $P(A|B) = 1/2$

conditional-probability continuous-data uniform

— Novizio
fonte

Cosa ti direbbe il tuo intuito se avesse una densità non uniforme ?

U

$U$

0.02 u, u \in (0, 10)

$0.02u, u \in (0,10)$

— Dilip Sarwate,

@DilipSarwate La mia intuizione mi direbbe che la risposta è un numero leggermente inferiore a 0,5

— Noob

Risposte:

"Il concetto di probabilità condizionata rispetto a un'ipotesi isolata la cui probabilità è uguale a 0 è inammissibile." A. Kolmogorov

Per variabili casuali continue, diciamo e , le proprietà condizionali sono definite dalla proprietà che recuperano la misura di probabilità originale, ovvero per tutti gli insiemi misurabili , , Ciò implica che la densità condizionale è definita arbitrariamente su insiemi di misura zero o, in altre parole, che la densità condizionale è definita quasi ovunque . Poiché l'insieme è di misura zero rispetto alla misura di Lebesgue, ciò significa che è possibile definire sia $X$ $Y$ $A\in\mathcal{B}(\mathbf{X})$ $B\in\mathcal{B}(\mathbf{Y})$

P (X \in A, Y \in B) = \int_{B} d P_{Y} (y) \int_{B} d P_{X | Y} (x | y)

$\mathbb{P}(X\in A,Y\in B)=\int_B \text{d}P_Y(y) \int_B \text{d}P_{X|Y}(x|y)$

p_{X | Y} (x | y)

$p_{X|Y}(x|y)$

{5, 6}

$\{5,6\}$

p (5)

$p(5)$ e in modi assolutamente arbitrari e quindi che la probabilità può assumere qualsiasi valore.

p (6)

$p(6)$

P (U = 5 | U \in {5, 6})

$\mathbb{P}(U=5|U\in\{5,6\})$

Ciò non significa che non è possibile definire una densità condizionale con la formula del rapporto come nel caso normale bivariato ma semplicemente che la densità è definita solo quasi ovunque sia per che per .

f (y | x) = f (x, y) / f (x)

$f(y|x)=f(x,y)\big/f(x)$

x

$x$

y

$y$

"Molti argomenti abbastanza futili hanno imperversato - tra probabilisti altrimenti competenti - su quale di questi risultati sia" corretto "." ET Jaynes

Il fatto che l'argomento limitante (quando va a zero) nella risposta sopra sembra dare una risposta naturale e intuitiva è correlato al paradosso di Borel . La scelta della parametrizzazione nel limite è importante, come mostrato nell'esempio seguente che utilizzo nelle mie lezioni universitarie. $\epsilon$

Prendi il normale bivariato Qual è la densità condizionale di dato che ?

X, Y \overset{i.i.d.}{\sim} N (0, 1)

$X,Y\stackrel{\text{i.i.d.}}{\sim}\mathcal{N}(0,1)$ $X$ $X=Y$

Se si parte dalla densità articolare , la risposta "intuitiva" è [proporzionale a] . Questo può essere ottenuto considerando la variazione della variabile dove ha la densità . Quindi e Tuttavia , se si considera invece il cambio di variabilela densità marginale di è la densità di Cauchy $\varphi(x)\varphi(y)$ $\varphi(x)^2$

(x, t) = (x, y - x) \sim φ (x) φ (t + x)

$(x,t)=(x,y-x) \sim \varphi(x)\varphi(t+x)$

T = Y - X

$T=Y-X$

φ (t / \sqrt{2}) / \sqrt{2}

$\varphi(t/\sqrt{2})/\sqrt{2}$

f (x | t) = \frac{φ (x) φ (t + x)}{φ (t / \sqrt{2}) / \sqrt{2}}

$f(x|t)=\dfrac{\varphi(x)\varphi(t+x)}{\varphi(t/\sqrt{2})/\sqrt{2}}$

f (x | t = 0) = \frac{φ (x) φ (x)}{φ (0 / \sqrt{2}) / \sqrt{2}} = φ (x)^{2} \sqrt{2}

$f(x|t=0)=\dfrac{\varphi(x)\varphi(x)}{\varphi(0/\sqrt{2})/\sqrt{2}}=\varphi(x)^2\sqrt{2}$

(x, r) = (x, y / x) \sim φ (x) φ (r x) | x |

$(x,r)=(x,y/x) \sim \varphi(x)\varphi(rx)|x|$

R = Y / X

$R=Y/X$

ψ (r) = 1 / π {1 + r^{2}}

$\psi(r)=1/\pi\{1+r^2\}$ e la densità condizionale di data è Pertanto, E qui sta il "paradosso": gli eventi e sono uguali a , ma portano a diverse densità condizionali su .

X

$X$

R

$R$

f (x | r) = φ (x) φ (r x) | x | \times π {1 + r^{2}}

$f(x|r)=\varphi(x)\varphi(rx)|x| \times \pi \{1+r^2\}$

f (x | r = 1) = π φ (x)^{2} | x | / 2 .

$f(x|r=1)= \pi\varphi(x)^2|x|/2\,.$

R = 1

$R=1$

T = 0

$T=0$

X = Y

$X=Y$

X

$X$

— Xi'an
fonte

Questo è semplicemente sbagliato. Se segui un corso rigoroso nella teoria della probabilità, vedrai che è possibile e pratico il condizionamento su eventi di misura zero . Considera un gaussiano bitivariato. Tutti sanno che puoi condizionare la prima variabile prendendo il valore zero, anche se questo evento ha probabilità zero. Vedi Wikipedia. en.wikipedia.org/wiki/…

— Yair Daon,

Ecco una risposta controversa:

Xi'an ha ragione nel dire che non puoi condizionare eventi con probabilità zero. Tuttavia, Yair ha anche ragione sul fatto che una volta deciso un processo limitante , è possibile valutare una probabilità. Il problema è che ci sono molti processi limitanti che arrivano alla condizione desiderata.

Penso che il principio di indifferenza a volte possa risolvere tali scelte. Sostiene che il risultato non dovrebbe essere influenzato da uno scambio arbitrario di etichette. nel tuo caso, diciamo, capovolgendo l'intervallo in modo che sia uniforme su e i punti 5 e 6 siano stati commutati. Lanciando si cambia una risposta in . Quindi se hai scelto un diverso processo di limitazione per l'uno rispetto all'altro, allora con un cambio arbitrario di etichette (in questo caso, cambiando l'infinito positivo per l'infinito negativo) hai ottenuto un risultato diverso. Ciò non dovrebbe avvenire secondo il principio dell'indifferenza. Pertanto, la risposta è 0,5 come indovinato. $(1, 11)$ $p$ $1-p$

Nota che molti statistici non accettano il principio di indifferenza. Mi piace perché riflette le mie intuizioni. Anche se non sono sempre sicuro di come applicarlo, forse tra 50 anni sarà più mainstream?

— Neil G
fonte

Grazie per un post ponderato. Io, per esempio, dubito seriamente che il "principio di indifferenza" sarà mai mainstream, perché non è praticabile. Il tuo argomento cade a pezzi quando i valori sottostanti vengono riespressi. La distribuzione uniforme su potrebbe quindi diventare, diciamo, una distribuzione di Cauchy, potrebbe diventare e diventare . Il tuo "principio di indifferenza" ora produce una risposta completamente diversa. (Ho usato le trasformazioni di probabilità per elaborare questo esempio.)

[0, 10]

$[0,10]$

5

$5$

0

$0$

6

$6$

\sqrt{1 - \frac{2}{\sqrt{5}}}

$\sqrt{1-\frac{2}{\sqrt{5}}}$

— whuber

@whuber: l'argomento lanciando non funzionerebbe per una distribuzione di Cauchy, a meno che tu non abbia capovolto la sua modalità.

— Neil G,

Certo che lo è: ci sono molti modi per trasformare una distribuzione continua in un'altra che scambiano due valori. In realtà, il tuo "lancio" non ha nemmeno preservato la distribuzione originale. (Ha cambiato del tutto il suo supporto.) Quindi sembrerebbe che tutto ciò che stai facendo sia sostituire una distribuzione con un'altra. Non sembra esserci alcun principio operativo qui.

— whuber

@whuber: ha sostituito una distribuzione con un'altra per cui le regioni uniformi intorno al 5 e 6 erano invariate - allo stesso modo penso che lo zoom indietro provi a lasciare invariate le densità nei circoli originali nel paradosso di Bertrand .

— Neil G,

@whuber: hai ragione. Mi è piaciuta molto la risposta di Patata a una delle mie domande. Personalmente penso che se c'è una discrepanza tra teoria e intuizione, dovremmo cercare nuove teorie più complete. Forse il "principio di indifferenza" non è del tutto corretto, o non è generalmente praticabile, ma ho un desiderio naturale per la teoria della probabilità di rispondere a domande per le quali abbiamo una comprensione intuitiva. Forse Lebesgue aveva lo stesso tipo di angoscia per l'integrazione di Riemann quando ha creato il suo integrale?

— Neil G,

Sì possiamo! È possibile condizionare su eventi di probabilità pari a zero! La matematica diventa complicata: hai bisogno di una teoria della misura ma puoi farcela. In casi semplici come questo vorrei cercare l'intuizione definendo e . Fai tutto ora come facevi prima e porta . $A = [5 - \frac{\epsilon}{2} , 5 + \frac{\epsilon}{2}]$ $B = [5 - \frac{\epsilon}{4} , 5 + \frac{\epsilon}{4}] \cup [6 - \frac{\epsilon}{4} , 6 + \frac{\epsilon}{4}]$ $\epsilon \to 0$

Vorrei sottolineare ancora (e ancora) che il metodo sopra è usato per l'intuizione. Il condizionamento su eventi di probabilità zero è fatto molto spesso senza pensarci troppo. Il miglior esempio che mi viene in mente è se è un gaussiano bivariato. Uno spesso considera la densità di data (diciamo) , che è un evento di misura zero. Questo è ben fondato in teoria, ma per niente banale. Riguardo alla citazione di Kolmogorov di @ Xi'an - Posso solo citare Varadhan: "Uno dei nostri obiettivi è cercare una definizione che abbia senso quando " (Teoria della probabilità, appunti di Courant, pagina 74) . $(X_1, X_2) \sim \mathcal{N}(0, \Sigma)$ $X_1$ $X_2 = 0$ $P(\xi = a) = 0$

Quindi sì, puoi dare un senso al condizionamento su eventi di misura zero.

— Yair Daon
fonte

Supponiamo che : sia che siano possibili. Come gestiresti la situazione quando e ? Sarebbe (che "intuitivamente" è la risposta giusta, perché tutti i numeri in hanno le stesse densità) o forse (che un semplice cambio di al nella vostra formula darebbe) o addirittura ?

U \sim U [0, 10]

$U\sim \text{U}[0,10]$

0

$0$

10

$10$

A = {0}

$A=\{0\}$

B = {0, 6}

$B=\{0,6\}$

P (A | B) = 1 / 2

$P(A|B)=1/2$

[0, 10]

$[0,10]$

1 / 3

$1/3$

5

$5$

0

$0$

0

$0$

— whuber

@YairDaon Grazie per la tua risposta! Se ho capito bene, intendi fare quanto segue: per piccolo , abbiamo:

ε

$\varepsilon$

P (A | B) = \frac{P (A \cap B)}{P (B)} = \frac{\int_{5 - \frac{ε}{4}}^{5 + \frac{ε}{4}} f (u) d u}{\int_{5 - \frac{ε}{4}}^{5 + \frac{ε}{4}} f (u) d u + \int_{6 - \frac{ε}{4}}^{6 + \frac{ε}{4}} f (u) d u} = \frac{\frac{ε}{2}}{\frac{ε}{2} + \frac{ε}{2}} = 0.5

$P\left( {A|B} \right) = \frac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}} = \frac{{\int\limits_{5 - \frac{\varepsilon }{4}}^{5 + \frac{\varepsilon }{4}} {f\left( u \right)du} }}{{\int\limits_{5 - \frac{\varepsilon }{4}}^{5 + \frac{\varepsilon }{4}} {f\left( u \right)du} + \int\limits_{6 - \frac{\varepsilon }{4}}^{6 + \frac{\varepsilon }{4}} {f\left( u \right)du} }} = \frac{{\frac{\varepsilon }{2}}}{{\frac{\varepsilon }{2} + \frac{\varepsilon }{2}}} = 0.5$

— Noob

@YairDaon Ma penso che il risultato non sia invariante se in origine avessimo definito A come ( e B come prima). In tal caso il risultato sarebbe

[5 - \frac{ε}{8}, 5 + \frac{ε}{8}]

$\left[ {5 - \frac{\varepsilon }{8},5 + \frac{\varepsilon }{8}} \right]$

\frac{1}{8}

${\frac{1}{8}}$

— Noob

È eccellente per l'intuizione mostrando che non esiste una risposta unica: questa è la base per l'affermazione di Kolmogorov citata da @ Xi'an. Il fatto che hai dovuto cambiare la tua procedura per far emergere le cose mentre pensavi che avrebbero dovuto avvisarti dei problemi con questo approccio.

— whuber

La densità di dato è ben definita, contrariamente alla densità di dato .

X_{2}

$X_2$

X_{1}

$X_1$

X_{2}

$X_2$

X_{1} = 0

$X_1=0$

— Xi'an,