Risposte:
In parole povere, la differenza tra ed è che la prima è una variabile casuale, mentre la seconda è (in un certo senso) una realizzazione di . Ad esempio, se
allora è la variabile casuale
Al contrario, una volta osservato , saremmo più probabilmente interessati alla quantità che è uno scalare.E ( X ∣ Y )
Forse questo sembra come complicazione inutile, ma per quanto riguarda come una variabile casuale a sé stante è ciò che rende le cose come la torre-legge hanno senso - la cosa all'interno delle parentesi graffe è casuale, quindi possiamo chiederci quale sia la sua aspettativa, mentre non c'è nulla di casuale su . Nella maggior parte dei casi potremmo sperare di calcolare
E ( X ∣ Y ) E ( X ) = E [ E ( X ∣ Y ) ] E ( X ∣ Y = y ) E ( X ∣ Y = y ) = ∫ x f X ∣ Y ( x ∣ y ) d x
e quindi ottenere "inserendo" la variabile casuale al posto di nell'espressione risultante. Come accennato in un commento precedente, c'è un po 'di sottigliezza che può insinuarsi riguardo a come queste cose sono rigorosamente definite e collegandole nel modo appropriato. Questo tende ad accadere con probabilità condizionata, a causa di alcuni problemi tecnici con la teoria di base.E ( X | Y ) Y y
Supponiamo che e siano variabili casuali.X
Sia un numero reale fisso , diciamo . Quindi,
è un
numero : è il valore atteso condizionale di dato che ha valore . Ora, nota per qualche altro numero reale fisso , diciamo , sarebbe il valore atteso condizionale di
dato (un valore reale numero). Non c'è motivo di supporre che edy 0
D'altra parte, è una variabile casuale che risulta essere una funzione della variabile casuale . Ora, ogni volta che scriviamo , intendiamo che ogni volta che la variabile casuale
ha valore , la variabile casuale ha valore
. Ogni volta che assume il valore , la variabile casuale assume il valore . Pertanto, è solo un altro nome per la variabile casualeE [ X ∣ Y ]
Come semplice esempio illustrativo, supponiamo che
e siano variabili casuali discrete con distribuzione congiunta
Nota che e sono variabili casuali (dipendenti) di Bernoulli con parametri rispettivamente e , e quindi
ed . Ora, nota che condizionato su , è una variabile casuale di Bernoulli con parametro mentre condizionataX
D'altra parte, è una variabile casuale
che assume valori e con probabilità e rispettivamente. Si noti che è una variabile casuale discreta ma non è una variabile casuale di Bernoulli.E[X∣Y]=g(Y)
Come tocco finale, nota che
Cioè, il valore atteso di questa funzione di , che abbiamo calcolato usando solo la distribuzione marginale di , sembra avere lo stesso valore numerico di !! Questo è un esempio di un risultato più generale che molte persone credono essere una BUGIA:
E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
Scusa, è solo una piccola battuta. BUGIA è l'acronimo di Law of Iterated Expectation, che è un risultato perfettamente valido che tutti credono sia la verità.
E(X|Y)
Pensala in questo modo: lascia che rappresenti l'apporto calorico e rappresenti l'altezza. è quindi l'apporto calorico, condizionale su altezza - e in questo caso, rappresenta la nostra migliore ipotesi al apporto calorico ( ) quando una persona ha una certa altezza diciamo 180 centimetri. X
E ( X | Y ) è il valore atteso dei valori di X dati i valori di Y E ( X | Y = y ) è il valore atteso di X dato che il valore di Y è y
Generalmente P ( X | Y ) è la probabilità di valori X dati valori Y , ma puoi ottenere più preciso e dire P ( X = x | Y = y ) , cioè la probabilità di valore x da tutte le X dato il y 'th valore di Y 's. La differenza è che nel primo caso si tratta di "valori di" e nel secondo si considera un certo valore.
È possibile trovare utile il diagramma seguente.