Una generalizzazione della legge delle aspettative iterate


43

Di recente mi sono imbattuto in questa identità:

E[E(Y|X,Z)|X]=E[Y|X]

Ho ovviamente familiarità con la versione più semplice di quella regola, ovvero che ma non sono riuscito a trovare la giustificazione per la sua generalizzazione.E[E(Y|X)]=E(Y)

Le sarei grato se qualcuno potesse indicarmi un riferimento non così tecnico per quel fatto o, ancora meglio, se qualcuno potesse fornire una semplice prova per questo importante risultato.


2
Se fosse esso stesso condizionato su alcuni , questo non sarebbe esattamente fuori dalla versione più semplice? xyx
Mehrdad,

Risposte:


36

TRATTAMENTO INFORMALE

Dobbiamo ricordare che la notazione in cui ci condizioniamo su variabili casuali è inaccurata, sebbene economica, come notazione. In realtà condizioniamo sulla sigma-algebra che generano queste variabili casuali. In altre parole, E[YX] significa E[Yσ(X)] . Questa osservazione può sembrare fuori posto in un "Trattamento informale", ma ci ricorda che le nostre entità condizionanti sono raccolte di insiemi (e quando condizioniamo su un singolo valore, allora questo è un insieme singleton). E cosa contengono questi set? Contengono le informazionicon cui i valori possibili della variabile casuale X ci forniscono su ciò che può accadere con la realizzazione di Y .
Introdurre il concetto di Informazione, ci permette di pensare (e usare) la Legge delle aspettative iterate (a volte chiamata "Proprietà della Torre") in un modo molto intuitivo:
la sigma-algebra generata da due variabili casuali, è almeno come grande come quello generato da una variabile casuale: σ(X)σ(X,Z) nel significato proprio set-teorico. Quindi le informazioni su Y contenute in σ(X,Z) è grande almeno quanto le informazioni corrispondenti inσ(X) .
Ora, come allusione notazionale, impostaσ(X)Ix eσ(X,Z)Ixz . Quindi è possibile scrivere l'LHS dell'equazione che stiamo osservando

Descrivendo verbalmente l'espressione precedente abbiamo: "qual è l'aspettativa di {il valore atteso di Y dato Informazioni I x z } dato che abbiamo informazioni disponibilisolo I x ?"

E[E(Y|Ixz)|Ix]
YIxzIx

Possiamo in qualche modo "prendere in considerazione" ? No - sappiamo solo che x . Ma se usiamo ciò che abbiamo (poiché siamo obbligati dall'espressione che vogliamo risolvere), allora essenzialmente diciamo cose su Y sotto l'operatore delle aspettative, cioè diciamo " E ( Y I x ) ", non più - abbiamo appena esaurito le nostre informazioni.ioXzioXYE(YIx)

Quindi

E[E(Y|Ixz)|Ix]=E(Y|Ix)

Se qualcun altro non lo farà, tornerò per il trattamento formale.

UN TRATTAMENTO FORMALE (poco più)

Vediamo come due libri molto importanti di teoria della probabilità, Probability and Measure di P. Billingsley (3d ed.-1995) e D. Williams "Probability with Martingales" (1991), trattano la questione della dimostrazione della "Legge delle aspettative alterate":
Billingsley dedica esattamente tre righe alla dimostrazione. Williams, e cito, dice

"(la proprietà della torre) è praticamente immediato dalla definizione di aspettativa condizionale".

Questa è una riga di testo. La prova di Billingsley non è meno opaca.

Ovviamente hanno ragione: questa proprietà importante e molto intuitiva delle aspettative condizionate deriva essenzialmente direttamente (e quasi immediatamente) dalla sua definizione: l'unico problema è, sospetto che questa definizione non sia di solito insegnata, o almeno non evidenziata, al di fuori della probabilità o misurare i circoli teorici. Ma per mostrare in (quasi) tre righe che la Legge delle aspettative iterate tiene, abbiamo bisogno della definizione di aspettativa condizionale, o meglio, della sua proprietà che definisce .

Lasciare uno spazio di probabilità , e una variabile casuale integrabile Y . Lasciate che G sia un sub σ -algebra di F , GF . Quindi esiste una funzione W che è G misurabile, integrabile e (questa è la proprietà che definisce)(Ω,F,P)YGσFGFWG

E(W1G)=E(Y1G)GG[1]

dove è la funzione indicatrice dell'insieme G . Diciamo che W è ("una versione di") l'attesa condizionale di Y dato G , e scriviamo W = E ( Y G )1GGWYG Il dettaglio importante notare qui è che l'aspettativa condizionale, ha lo stesso valore atteso come Y fa, non solo su tutta G ,ma in ogni sottoinsieme G di G .W=E(YG)a.s.
YGGG

(Proverò ora a presentare come la proprietà Tower deriva dalla definizione di aspettativa condizionale).

è unavariabile casuale misurabile G. Consideriamo poi alcuni sub σ -algebra, dire HG . Poi G HG G . Quindi, in modo analogo come in precedenza, abbiamo l'aspettativa condizionale di W dato H , diciamo U = E ( W H )WGσHGGHGGWHche è caratterizzato da U=E(WH)a.s.

E(U1G)=E(W1G)GH[2]

Da , le equazioni [ 1 ] e [ 2 ] ci dannoHG[1][2]

E(U1G)=E(Y1G)GH[3]

Ma questa è una caratteristica distintiva del valore atteso condizionato di dato H . YHQuindi abbiamo il diritto di scrivere Dato che abbiamo anche per costruzione U = E ( W H ) = E ( E [ Y G ] H ) , abbiamo appena dimostrato la proprietà della Torre, o la forma generale della Legge delle aspettative iterate - in otto righe.U=E(YH)a.s.
U=E(WH)=E(E[YG]H)


6
(+1) Questo è un modo utile per descrivere un concetto astratto e difficile. Credo, tuttavia, che la frase "... non è più grande ..." dovrebbe essere "non è più piccola". Meglio ancora, quella sezione potrebbe essere resa più chiara rimuovendo i negativi e usando una costruzione parallela, come in "L'algebra sigma generata da due variabili è almeno grande quanto quella generata da una variabile casuale ... Quindi le informazioni su contenute in σ ( X , Z ) è grande almeno quanto le informazioni corrispondenti in σ ( X ) . " Yσ(X,Z)σ(X)
whuber

Grazie ad entrambi, cc @whuber. Questo è un teorema molto utile.
JohnK,

@ whuber Grazie per aver individuato questo e per il suggerimento.
Alecos Papadopoulos,

24

Il modo in cui comprendo le aspettative condizionali e insegno ai miei studenti è il seguente:

aspettativa condizionale è una foto scattata da una fotocamera con risoluzione σ ( X )E[Y|σ(X)]σ(X)

Come menzionato da Alecos Papadopoulos, la notazione è più preciso di E [ Y | X ] . Lungo la linea della macchina fotografica, si può pensare a Y come l'oggetto originale, ad esempio un paesaggio, uno scenario. E [ Y | σ ( X , Z ) ] è una foto scattata da una fotocamera con risoluzione σ ( X , Z )E[Y|σ(X)]E[Y|X]YE[Y|σ(X,Z)]σ(X,Z). L'aspettativa è un operatore di media (operatore "sfocato"?). Lo scenario può contenere molte cose, ma l'immagine che hai scattato usando una fotocamera a bassa risoluzione farà sicuramente sparire alcuni dettagli, ad esempio, potrebbe esserci un UFO nel cielo che può essere visto a occhio nudo ma non lo fa appare nella tua foto scattata da (iphone 3?)

Se la risoluzione è così alta che , questa immagine è in grado di catturare ogni dettaglio del vero scenario. In questo caso, abbiamo E [ Y | σ ( Y ) ] = Y .σ(X,Z)=σ(Y)E[Y|σ(Y)]=Y

Ora, può essere visualizzato come: utilizzando un'altra fotocamera con risoluzione σ ( X ) (ad es. iphone 1) che è inferiore a σ ( X , Z ) (ad es. iphone 3) e scatta una foto sull'immagine generata da fotocamera con risoluzione σ ( X , Z ) , quindi dovrebbe essere chiaroE[E[Y|σ(X,Z)]|σ(X)]σ(X)σ(X,Z)σ(X,Z)questa immagine su un'immagine dovrebbe essere la stessa di una fotocamera con bassa risoluzione sullo scenario.σ(X)

Questo fornisce intuizione su . In effetti questa stessa intuizione ci dice che E [ E [ Y | X ] | X , Z ] = E [ Y | X ]E[E[Y|X,Z]|X]=E[Y|X]E[E[Y|X]|X,Z]=E[Y|X]ancora. Questo perché: se la tua prima foto è stata scattata da iPhone 1 (ovvero, a bassa risoluzione), e ora vuoi usare una fotocamera migliore (ad esempio, iPhone 3) per generare un'altra foto sulla prima foto, allora non c'è modo può migliorare la qualità della prima foto.


2
lo adoro! :) ottima spiegazione.
jessica,

1
@jessica Sono contento che aiuti :-) Mi ci è voluto un po 'di tempo per trovare questa spiegazione
KevinKim

21

Nella Legge dell'attesa Iterata (LIE), , quell'aspettativa interiore è una variabile casuale che sembra essere una funzione di X , diciamo g ( X ) , e non un funzione di Y . Che l'attesa di questa funzione di X sia uguale all'aspettativa di Y è una conseguenza di una BUGIA. Tutto ciò è, agitando la mano, solo l'affermazione che il valore medio di Y può essere trovato in mediaE[E[Y|X]]=E[Y]Xg(X)YXYYi valori medi di in varie condizioni. In effetti, è tutto solo una conseguenza diretta della legge della probabilità totale. Ad esempio, se X e Y sono variabili casuali discrete con giunto pmf p X , Y ( x , y ) , quindi E [ Y ]YXYpX,Y(x,y) Nota come è l'ultima aspettativa rispetto aX; E[Y|X]è una funzione diX, non diY, ma tuttavia la sua media è la stessa come la media diY.

E[Y]=yypY(y)definition=yyxpX,Y(x,y)write in terms of joint pmf=yyxpYX(yX=x)pX(x)write in terms of conditional pmf=xpX(x)yypYX(yX=x)interchange order of summation=xpX(x)E[YX=x]inner sum is conditional expectation=E[E[YX]]RV E[YX] has value E[YX=x] when X=x
XE[YX]XYY

La menzogna generalizzata che si sta guardando ha sul sinistro in cui l'aspettativa interna è una funzione h ( X , Z ) di due variabili casuali X e Z . L'argomento è simile a quello delineato sopra, ma ora dobbiamo dimostrare che la variabile casuale E [ Y X ] è uguale a un'altra variabile casuale. Lo facciamo osservando il valore di E [ Y E[E[YX,Z]X]h(X,Z)XZ E[YX] quando X ha il valore x . Saltando le spiegazioni, abbiamo che E [ Y X = x ]E[YX]Xx Nota che il penultimo lato destro è la formula per ilvalore atteso condizionaledella variabile casualeE[YX,Z](una funzione diXeZ) condizionatadal valore diX. Stiamo fissandoXper avere valorex, moltiplicando i valori della variabile casualeE[YX

E[YX=x]=yypYX(yX=x)=yypX,Y(x,y)pX(x)=yyzpX,Y,Z(x,y,z)pX(x)=yyzpYX,Z(yX=x,Z=z)pX,Z(x,z)pX(x)=zpX,Z(x,z)pX(x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)E[YX=x,Z=z)=E[E[YX,Z]X=x]
E[YX,Z]XZXXx dalvalore pmfcondizionaledi Z dato X , e sommando tutti questi termini.E[YX,Z]ZX

Pertanto, per ciascun valore della variabile casuale X , il valore della variabile casuale E [ Y X ] (che abbiamo notato in precedenza è una funzione di X , non di Y ), è uguale al valore della variabile casuale E [ E [ Y X , Z ] X ] , cioè queste due variabili casuali sono uguali. Ti mentirei?xXE[YX]XYE[E[YX,Z]X]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.