Qual è la differenza tra ed ?


18

In generale, qual è la differenza tra E ( X | Y )E(X|Y) ed E ( X | Y = y )E(X|Y=y) ?

Precedentemente è la funzione di e quest'ultima è la funzione di ? È così confuso ..y yxx


Hmmm ... Quest'ultimo non dovrebbe essere una funzione di x ma un numero! Ho sbagliato?
David,

Risposte:


23

In parole povere, la differenza tra ed è che la prima è una variabile casuale, mentre la seconda è (in un certo senso) una realizzazione di . Ad esempio, se allora è la variabile casuale Al contrario, una volta osservato , saremmo più probabilmente interessati alla quantità che è uno scalare.E ( X Y ) E(XY)E ( X Y = y ) E(XY=y)E ( X Y ) E(XY)( X , Y ) N ( 0 , ( 1 ρ ρ 1 ) )

(X,Y)N(0,(1ρρ1))
E ( X Y ) E(XY)E ( X Y ) = ρ Y .
E(XY)=ρY.
Y = y Y=yE ( X Y= y ) = ρ yE(XY=y)=ρy

Forse questo sembra come complicazione inutile, ma per quanto riguarda come una variabile casuale a sé stante è ciò che rende le cose come la torre-legge hanno senso - la cosa all'interno delle parentesi graffe è casuale, quindi possiamo chiederci quale sia la sua aspettativa, mentre non c'è nulla di casuale su . Nella maggior parte dei casi potremmo sperare di calcolare E ( X Y ) E ( X ) = E [ E ( X Y ) ] E ( X Y = y ) E ( X Y = y ) = x f X Y ( x y ) d xE(XY)E(X)=E[E(XY)]E(XY=y) 

E(XY=y)=xfXY(xy) dx

e quindi ottenere "inserendo" la variabile casuale al posto di nell'espressione risultante. Come accennato in un commento precedente, c'è un po 'di sottigliezza che può insinuarsi riguardo a come queste cose sono rigorosamente definite e collegandole nel modo appropriato. Questo tende ad accadere con probabilità condizionata, a causa di alcuni problemi tecnici con la teoria di base.E ( X | Y ) Y yE(XY)Yy


8

Supponiamo che e siano variabili casuali.X XYY

Sia un numero reale fisso , diciamo . Quindi, è un numero : è il valore atteso condizionale di dato che ha valore . Ora, nota per qualche altro numero reale fisso , diciamo , sarebbe il valore atteso condizionale di dato (un valore reale numero). Non c'è motivo di supporre che edy 0 y0y 0 = 1 E [ X Y = y 0 ] = E [ X Y = 1 ] X Y 1 y 1 y 1 = 1.5 E [ X Y = y 1 ] 1.5 ] E [ X Y = y ] g ( y ) y E [ X y0=1E[XY=y0]=E[XY=1]XY1y1y1=1.5 = E [ X Y = 1.5 ] E[XY=y1]=E[XY=1.5]X XY = 1,5 Y=1.5E [ X Y =E[XY=1.5] E [ X Y = 1 ]E[XY=1]hanno lo stesso valore. Pertanto, possiamo anche considerare come una funzione a valore reale che mappa i numeri reali ai numeri reali . Si noti che l'affermazione nella domanda del PO che è una funzione di non è corretta: è una funzione con valore reale di .E[XY=y] g(y)y Y = y ] E[XY=y]E [ X Y = y ] E[XY=y]x xE [ X Y = y ] E[XY=y]yy

D'altra parte, è una variabile casuale che risulta essere una funzione della variabile casuale . Ora, ogni volta che scriviamo , intendiamo che ogni volta che la variabile casuale ha valore , la variabile casuale ha valore . Ogni volta che assume il valore , la variabile casuale assume il valore . Pertanto, è solo un altro nome per la variabile casualeE [ X Y ] E[XY]Z Y Z = h ( Y ) Y y Z h ( y ) Y y Z = E [ X Y ] ZYZ=h(Y)YyZh(y)Yy Z=E[XY] E [ X Y = y ] = g ( y ) E[XY=y]=g(y)E [ X Y ] E[XY]Z = g ( Y )Z=g(Y). Si noti che è una funzione di (non come nell'affermazione della domanda del PO).E [ X Y ] E[XY]Y Yyy

Come semplice esempio illustrativo, supponiamo che e siano variabili casuali discrete con distribuzione congiunta Nota che e sono variabili casuali (dipendenti) di Bernoulli con parametri rispettivamente e , e quindi ed . Ora, nota che condizionato su , è una variabile casuale di Bernoulli con parametro mentre condizionataXXYYP(X=0,Y=0)=0.1,  P(X=0,Y=1)=0.2,P(X=1,Y=0)=0.3,  P(X=1,Y=1)=0.4.

P(X=0,Y=0)P(X=1,Y=0)=0.1,  P(X=0,Y=1)=0.2,=0.3,  P(X=1,Y=1)=0.4.
XXYY0.70.70.60.6E[X]=0.7E[X]=0.7E[Y]=0.6E[Y]=0.6Y=0Y=0XX0.750.75su , è una variabile casuale di Bernoulli con parametro . Se non riesci a capire perché questo è così immediato, basta elaborare i dettagli: ad esempio e similmente per e . Quindi, abbiamo che Pertanto, dove è una funzione a valore reale che gode delle proprietà:Y=1Y=1XX2323P(X=1Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
P(X=1Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
P(X=1Y=1)P(X=1Y=1)P(X=0Y=1)P(X=0Y=1)E[XY=0]=34,E[XY=1]=23.
E[XY=0]=34,E[XY=1]=23.
E[XY=y]=g(y)E[XY=y]=g(y)g(y)g(y)g(0)=34,g(1)=23.
g(0)=34,g(1)=23.

D'altra parte, è una variabile casuale che assume valori e con probabilità e rispettivamente. Si noti che è una variabile casuale discreta ma non è una variabile casuale di Bernoulli.E[XY]=g(Y)E[XY]=g(Y)343423230.4=P(Y=0)0.4=P(Y=0)0.6=P(Y=1)0.6=P(Y=1)E[XY]E[XY]

Come tocco finale, nota che Cioè, il valore atteso di questa funzione di , che abbiamo calcolato usando solo la distribuzione marginale di , sembra avere lo stesso valore numerico di !! Questo è un esempio di un risultato più generale che molte persone credono essere una BUGIA: E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].

E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
YYYYE[X]E[X]E[E[XY]]=E[X].
E[E[XY]]=E[X].

Scusa, è solo una piccola battuta. BUGIA è l'acronimo di Law of Iterated Expectation, che è un risultato perfettamente valido che tutti credono sia la verità.


3

E(X|Y)E(X|Y) è l'aspettativa di una variabile casuale: l'aspettativa di subordinata . , d'altra parte, è un valore particolare: il valore atteso di quando .XXYYE(X|Y=y)E(X|Y=y)XXY=yY=y

Pensala in questo modo: lascia che rappresenti l'apporto calorico e rappresenti l'altezza. è quindi l'apporto calorico, condizionale su altezza - e in questo caso, rappresenta la nostra migliore ipotesi al apporto calorico ( ) quando una persona ha una certa altezza diciamo 180 centimetri. XXYYE(X|Y)E(X|Y)E(X|Y=y)E(X|Y=y)XXY=yY=y


4
Credo che la tua prima frase dovrebbe sostituire "distribuzione" con "aspettativa" (due volte).
Glen_b -Restate Monica

4
E(XY)E(XY) non è la distribuzione di data ; questo sarebbe più comunemente indicato dalla densità condizionale o dalla funzione di distribuzione condizionale. E ( X Y ) è l'aspettativa condizionale di X dato Y , che è una variabile casuale misurabile Y. E ( X Y = y ) potrebbe essere pensato come la realizzazione della variabile casuale E ( X Y ) quando Y =XXYYfXY(xy)fXY(xy)E(XY)XYYE(XY=y)E(XY)y viene osservato (ma esiste la possibilità che insinui la sottigliezza teorica della misura). Y=y
ragazzo,

1
@guy La tua spiegazione è la prima risposta precisa ancora fornita (su tre finora offerti). Considereresti di pubblicarlo come una risposta?
whuber

@whuber Vorrei ma non sono sicuro di come trovare un equilibrio tra accuratezza e rendere la risposta opportunamente utile all'OP e sono paranoico di essere inciampato su tecnicismi :)
ragazzo

@Guy Penso che tu abbia già fatto un buon lavoro con i tecnicismi. Dato che sei sensibile nel comunicare bene con l'OP (il che è fantastico!), Considera di offrire un semplice esempio per illustrare - forse solo una distribuzione congiunta con marginali binari.
whuber

1

E ( X | Y ) è il valore atteso dei valori di X dati i valori di Y E ( X | Y = y ) è il valore atteso di X dato che il valore di Y è y

Generalmente P ( X | Y ) è la probabilità di valori X dati valori Y , ma puoi ottenere più preciso e dire P ( X = x | Y = y ) , cioè la probabilità di valore x da tutte le X dato il y 'th valore di Y 's. La differenza è che nel primo caso si tratta di "valori di" e nel secondo si considera un certo valore.

È possibile trovare utile il diagramma seguente.

Bayes theorem diagram form Wikipedia


Questa risposta discute la probabilità, mentre la domanda pone delle aspettative. Qual è la connessione?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.