Derivazione dell'equazione di Bellman nell'apprendimento per rinforzo


Risposte:


7

Questa è la risposta per tutti coloro che si chiedono la matematica pulita e strutturata dietro di essa (cioè se appartieni a un gruppo di persone che sa cos'è una variabile casuale e che devi mostrare o presumere che una variabile casuale abbia una densità, allora questo è la risposta per te ;-)):

Prima di tutto dobbiamo avere che il processo decisionale di Markov ha solo un numero finito di -reward, cioè abbiamo bisogno che esista un insieme finito di densità, ciascuna appartenente a variabili , cioè per tutti e una mappa tale che (cioè negli automi dietro l'MDP, potrebbero esserci infiniti stati ma ci sono solo finitamente molte distribuzioni di ricompense associate alle transizioni forse infinite tra gli stati)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Teorema 1 : Consenti (ovvero una variabile casuale reale integrabile) e lascia che sia un'altra variabile casuale tale che abbiano una densità comune quindi XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Prova : essenzialmente dimostrato qui da Stefan Hansen.

Teorema 2 : Sia e siano ulteriori variabili casuali tali che abbiano una densità comune quindi dove è nell'intervallo .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Prova :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Inserisci e inserisci allora si può mostrare (usando il fatto che MDP ha solo finitamente molti -rewards) che converge e che dalla funzioneè ancora in (cioè integrabile) si può anche mostrare (usando la consueta combinazione dei teoremi della convergenza monotona e quindi dominata la convergenza sulle equazioni che definiscono [le fattorizzazioni di] l'attesa condizionale) che Ora uno lo mostra Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1 [ G ( K ) t | S t = s t ] = E [ G t | S t = s t ] | s tGt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
| S t + 1 = s , S t = s t ] utilizzando , Thm. 2 sopra quindi Thm. 1 su e quindi usando una guerra di emarginazione semplice, si mostra che per tutto . Ora dobbiamo applicare il limite da su entrambi i lati dell'equazione. Per spostare il limite nell'integrale nello spazio degli stati dobbiamo fare alcune ipotesi aggiuntive:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

O lo spazio degli stati è finito (quindi e la somma è finita) o tutte le ricompense sono tutte positive (quindi usiamo la convergenza monotona) o tutte le ricompense sono negative (quindi mettiamo un segno meno davanti al equazione e usa di nuovo la convergenza monotona) o tutte le ricompense sono limitate (quindi usiamo la convergenza dominata). Quindi (applicando su entrambi i lati dell'equazione Bellman parziale / finita sopra) otteniamoS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

e poi il resto è la solita manipolazione della densità.

NOTA: Anche in compiti molto semplici lo spazio degli stati può essere infinito! Un esempio potrebbe essere il compito di "bilanciare un polo". Lo stato è essenzialmente l'angolo del polo (un valore in , un insieme infinito infinito!)[0,2π)

NOTA: le persone potrebbero commentare 'impasto, questa prova può essere abbreviata molto di più se si utilizza direttamente la densità di e si mostra che '... MA ... le mie domande sarebbero:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Come mai sai anche che ha una densità?Gt+1
  2. Come mai sai persino che ha una densità comune insieme a ?Gt+1St+1,St
  3. Come si deduce che ? Questa non è solo la proprietà Markov: la proprietà Markov ti dice solo qualcosa sulle distribuzioni marginali, ma queste non determinano necessariamente l'intera distribuzione, vedi ad esempio i gaussiani multivariati!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Lascia che la somma totale dei premi scontati dopo il tempo sia: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Valore d'uso di partire in stato, al momento, è equivalente a somma attesa di ricompense scontati di eseguire la politica a partire da stato in poi. Per definizione di Per legge di linearità Per legge dit R π s U π ( S t = s ) = E π [ G t | S t = s ]st
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= E π [ R t + 1 | S t = s ] + γ E π [ U=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Aspettativa totale Per definizione di Per legge di linearità
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ) | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Supponendo che le soddisfa processo di Markov di proprietà:
Probabilità di finire in stato di avendo iniziato da stato e intrapreso azioni , e ricompensa di finire nello stato che è iniziato dallo stato e ha intrapreso un'azione , s s a P r ( s | s , a ) = P r ( S t + 1 = s , S t = s , A t = a ) R s s a R ( s , a , s ) = [ R t + 1 | S tPrssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Quindi possiamo riscrivere sopra l'equazione dell'utilità come,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Dove; : probabilità di agire in stato per una politica stocastica. Per la politica deterministica,a s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


Solo alcune note: la somma di equivale a 1 anche in una politica stocastica, ma in una politica deterministica, c'è solo un'azione che riceve tutto il peso (cioè, e il resto riceve 0 di peso, in modo che il termine venga rimosso dall'equazione. Anche nella riga in cui hai usato la legge dell'aspettativa totale, l'ordine dei condizionali viene invertitoπ ( a | s ) = 1ππ(a|s)=1
Gilad Peleg,

1
Sono abbastanza sicuro che questa risposta sia errata: seguiamo le equazioni fino alla linea che coinvolge la legge dell'aspettativa totale. Quindi il lato sinistro non dipende da mentre il lato destro fa ... Cioè se le equazioni sono corrette, allora per quale sono corrette? Devi avere una sorta di integrale su già a quel punto. Il motivo è probabilmente il tuo malinteso sulla differenza di (una variabile casuale) rispetto alla sua fattorizzazione (una funzione deterministica!) ...s s E [ X | Y ] E [ X | Y = y ]sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Sono d'accordo che questo non è corretto. La risposta di Jie Shi è la risposta giusta.
teucer

@teucer Questa risposta può essere risolta perché manca solo un po 'di "simmetrizzazione", ovvero ma la domanda è sempre la stessa della risposta di Jie Shis: Perché ? Questa non è solo la proprietà Markov perché è un camper davvero complicato: converge persino? Se sì, dove? Qual è la densità comune ? Conosciamo questa espressione solo per somme finite (complicata convoluzione) ma per il caso infinito? E [ G t + 1 | S t + 1 = s t + 1 , S t = s t ]= E [ G t + 1 | S t + 1 = s t + 1 ] GE[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1] p( g t + 1 , s t + 1 , s t )Gt+1p(gt+1,st+1,st)
Fabian Werner il

@FabianWerner non sono sicuro di poter rispondere a tutte le domande. Di seguito alcuni puntatori. Per la convergenza di , dato che è la somma dei premi scontati, è ragionevole supporre che le serie convergano (il fattore di sconto è e dove converge non ha importanza). Non mi preoccupo della densità (si può sempre definire una densità articolare fintanto che abbiamo variabili casuali), importa solo se è ben definita e in quel caso lo è. < 1Gt+1<1
teucer

8

Ecco la mia prova. Si basa sulla manipolazione di distribuzioni condizionate, che ne facilita il seguito. Spero che questo ti aiuti.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Questa è la famosa equazione di Bellman.


Ti dispiace spiegare un po 'di più questo commento "Nota che ..."? Perché queste variabili casuali e le variabili di stato e di azione hanno persino una densità comune? In tal caso, perché conosci questa proprietà che stai utilizzando? Vedo che è vero per una somma finita ma se la variabile casuale è un limite ... ??? Gt+1
Fabian Werner il

A Fabian: ricordiamo innanzitutto cosa è . . Nota che dipende solo direttamente da e poiché acquisisce tutte le informazioni di transizione di un MDP (Più precisamente, è indipendente da tutti gli stati, azioni e premi prima del tempo dato e ). Allo stesso modo, dipende solo da e . Di conseguenza, è indipendente da , G t + 1 = R t + 2 + R t + 3 + R t + 2 S t + 1 A t + 1 p ( s , r | s , a ) 3 S t + 2 A t + 2 G t + 1 S tGt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a) t + 1 S t + 1 A t + 1 R t +Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StR t S t + 1Ate dato , che spiega quella riga. RtSt+1
Jie Shi,

Mi dispiace, questo lo "motiva", in realtà non spiega nulla. Ad esempio: qual è la densità di ? Perché sei sicuro che ? Perché queste variabili casuali hanno persino una densità comune? Sai che una somma si trasforma in una convoluzione in densità, quindi cosa ... dovrebbe avere una quantità infinita di integrali nella densità ??? Non c'è assolutamente nessun candidato per la densità! p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1Gt+1G t + 1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner,

A Fabian: non capisco la tua domanda. 1. Desideri la forma esatta della distribuzione marginale ? Non lo so e non ne abbiamo bisogno in questa prova. 2. perché ? Perché, come ho detto prima, e sono indipendenti dati . 3. Cosa intendi con "densità comune"? Intendi la distribuzione congiunta? Vuoi sapere perché queste variabili casuali hanno una distribuzione congiunta? Tutte le variabili casuali in questo universo possono avere una distribuzione congiunta. Se questa è la tua domanda, ti suggerirei di trovare un libro di teoria della probabilità e di leggerlo. p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi


2

Qual è il seguente approccio?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Le somme vengono introdotte per recuperare , e da . Dopotutto, le azioni possibili e i possibili stati successivi possono essere. Con queste condizioni extra, la linearità dell'aspettativa porta al risultato quasi direttamente.s r sasrs

Non sono sicuro di quanto matematicamente sia rigorosa la mia tesi. Sono aperto a miglioramenti.


L'ultima riga funziona solo a causa della proprietà MDP.
teucer

2

Questo è solo un commento / aggiunta alla risposta accettata.

Ero confuso nella linea in cui viene applicata la legge dell'aspettativa totale. Non credo che la principale forma di legge dell'aspettativa totale possa aiutare qui. Una variante di questo è in effetti necessaria qui.

Se sono variabili casuali e presupponendo che esistano tutte le aspettative, vale la seguente identità:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

In questo caso, , e . PoiX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , che secondo Markov proprietà eqauls toE[E[Gt+1|St+1=s]|St=s]

Da lì, si potrebbe seguire il resto della prova dalla risposta.


1
Benvenuto in CV! Si prega di utilizzare le risposte solo per rispondere alla domanda. Una volta che hai abbastanza reputazione (50), puoi aggiungere commenti.
Frans Rodenburg,

Grazie. Sì, poiché non ho potuto commentare a causa della scarsa reputazione, ho pensato che potesse essere utile aggiungere la spiegazione alle risposte. Ma lo terrò a mente.
Mehdi Golari,

Ho votato, ma ancora, a questa risposta mancano i dettagli: anche se soddisfa questa pazza relazione, nessuno garantisce che ciò sia vero anche per le fattorizzazioni delle aspettative condizionali! Vale a dire come nel caso della risposta di Ntabgoba: il lato sinistro non dipende da mentre il lato destro lo fa . Questa equazione non può essere corretta! s E[X|Y]s
Fabian Werner,

1

π π ( a | s ) a sEπ() solito indica le aspettative supponendo che l'agente segua la politica . In questo caso sembra non deterministico, ovvero restituisce la probabilità che l'agente agisca quando si trova nello stato .ππ(a|s)as

Sembra che , in minuscolo, sta sostituendo , una variabile casuale. La seconda aspettativa sostituisce la somma infinita, per riflettere l'assunto che continuiamo a seguire per tutto il futuro . è quindi la ricompensa immediata prevista nel passaggio successivo; La seconda aspettativa — che diventa — è il valore atteso dello stato successivo, ponderato dalla probabilità di liquidazione nello stato che ha preso da .R t + 1 π t s , r r p ( s , r | s , a ) v π s a srRt+1πts,rrp(s,r|s,a)vπsas

Pertanto, le aspettative spiegano la probabilità della politica e le funzioni di transizione e ricompensa, qui espresse insieme come .p(s,r|s,a)


Grazie. Sì, ciò che hai menzionato su è corretto (è la probabilità che l'agente agisca in stato ). a sπ(a|s)as
Amelio Vazquez-Reina,

Quello che non seguo sono quali termini vengono esattamente espansi in quali termini nel secondo passaggio (ho familiarità con la fattorizzazione e l'emarginazione di probabilità, ma non tanto con RL). è il termine in fase di espansione? Cioè cosa esattamente nel passaggio precedente è uguale a cosa esattamente nel passaggio successivo? Rt
Amelio Vazquez-Reina,

1
Sembra che , in minuscolo, sta sostituendo , una variabile casuale, e la seconda aspettativa sostituisce la somma infinita (probabilmente per riflettere l'assunto che continuiamo a seguire per tutto il futuro ). è quindi la ricompensa immediata prevista nel passaggio temporale successivo e la seconda aspettativa, che diventa è il valore atteso dello stato successivo, ponderato dalla probabilità di liquidazione nello stato avendo preso da . R t + 1 π t Σ p ( s , r | s , a ) r v π s a srRt+1πtΣp(s,r|s,a)rvπsas
Sean Easter,

1

anche se la risposta corretta è già stata data e è trascorso un po 'di tempo, ho pensato che la seguente guida passo passo potesse essere utile:
Per linearità del valore atteso possiamo dividere in e . Descriverò i passaggi solo per la prima parte, poiché la seconda parte seguirà gli stessi passaggi combinati con la Legge delle aspettative totali.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Considerando che (III) segue la forma:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

So che esiste già una risposta accettata, ma desidero fornire una derivazione probabilmente più concreta. Vorrei anche ricordare che sebbene il trucco di @Jie Shi abbia un po 'di senso, ma mi fa sentire molto a disagio :(. Dobbiamo considerare la dimensione temporale per far funzionare questo. Ed è importante notare che l'aspettativa è in realtà ripreso l'intero orizzonte infinito, piuttosto che a poco più di e . Prendiamo per scontato partiamo da (in realtà, la derivazione è lo stesso a prescindere dal tempo di partenza, io non voglio contaminare le equazioni con un altro pedice ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
Tabcabcaabbcc ( r1+γ T - 2 t = 0 γtrt+2 RILEVATO CHE L'equazione sopra è valida anche se , IN REALTÀ SARÀ VERO FINO ALLA FINE DELL'UNIVERSO (forse essere un po 'esagerato :))T
In questa fase, credo che la maggior parte di noi dovrebbe già avere in mente come quanto sopra porta all'espressione finale - dobbiamo solo applicare la regola di somma-prodotto ( ) scrupolosamente . Applichiamo la legge di linearità dell'Attesa a ciascun termine all'interno delabcabcaabbcc(r1+γt=0T2γtrt+2)

Parte 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Bene, questo è piuttosto banale, tutte le probabilità scompaiono (in realtà si sommano a 1) tranne quelle relative a . Pertanto, abbiamo r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Parte 2
Indovina un po ', questa parte è ancora più banale: implica solo riorganizzare la sequenza delle sommazioni.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

E Eureka !! recuperiamo uno schema ricorsivo a fianco delle grandi parentesi. Combiniamolo con e otteniamo e la parte 2 diventa γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)
s1)a 0 π ( a 0 | s 0 ) s 1 , r 1 p ( s 1 , r 1 | s 0 , a 0 ) × γ v π (
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Parte 1 + Parte 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

E ora se riusciamo a infilare nella dimensione temporale e recuperare le formule ricorsive generali

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Confessione finale, ho riso quando ho visto le persone sopra menzionate l'uso della legge dell'aspettativa totale. Quindi eccomi qui


Ehm ... che cosa significa il simbolo ' '? Non c'è ... a a0,...,aa
Fabian Werner

Un'altra domanda: perché è vera la prima equazione? Conosco ma nel nostro caso sarebbe una sequenza infinita di variabili casuali quindi avremmo bisogno di calcolare la densità di questa variabile (costituita da una quantità infinita di variabili di cui conosciamo la densità) insieme a qualcos'altro (ovvero lo stato). .. come lo fai esattamente? Cioè cos'è ? X ( R 0 , R 1 , R 2 , . . . . . . . . ) P ( r 0 , r 1 , . . . . )E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
Fabian Werner

@FabianWerner. Fai un respiro profondo per calmare prima il cervello :). Lasciami rispondere alla tua prima domanda. . Se ricordi la definizione della funzione valore, in realtà si tratta di una somma di premi futuri scontati. Se consideriamo un orizzonte infinito per le nostre ricompense future, allora dobbiamo sommare un numero infinito di volte. Una ricompensa è il risultato di un'azione da uno stato, poiché esiste un numero infinito di ricompense, dovrebbe esserci un numero infinito di azioni, quindi . a a0,...,aa0a1,...,aa
Karlsson Yu

1
supponiamo che sia d'accordo sul fatto che ci sia qualche strano (di cui dubito ancora, di solito, gli studenti del primo semestre in matematica tendono a confondere il limite con qualche costruzione che coinvolge effettivamente un elemento infinito) ... hanno una semplice domanda: come viene definito " ? So cosa dovrebbe significare questa espressione con una quantità finita di somme ... ma infinitamente molte? Cosa capisci che fa questa espressione? a 1 . . . a aa1...a
Fabian Werner,

1
Internet. Potresti riferirmi a una pagina o in qualsiasi posto che definisce la tua espressione? Altrimenti hai effettivamente definito qualcosa di nuovo e non ha senso discuterne perché è solo un simbolo che hai inventato (ma non ha alcun significato dietro di esso) ... sei d'accordo che siamo in grado di discutere solo del simbolo se entrambi sappiamo cosa significa, giusto? Quindi, non so cosa significhi, per favore spiega ...
Fabian Werner il

1

Ci sono già molte risposte a questa domanda, ma la maggior parte comprende poche parole che descrivono cosa sta succedendo nelle manipolazioni. Ho intenzione di rispondere usando molte più parole, credo. Iniziare,

Gtk=t+1Tγkt1Rk

è definito nell'equazione 3.11 di Sutton e Barto, con un fattore di sconto costante e possiamo avere o , ma non entrambi. Poiché i premi, , sono variabili casuali, così è in quanto è semplicemente una combinazione lineare di variabili casuali.0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Quest'ultima riga deriva dalla linearità dei valori di aspettativa. è la ricompensa che l'agente ottiene dopo aver intrapreso un'azione nel passaggio . Per semplicità, presumo che possa assumere un numero finito di valori . Rt+1trR

Lavora sul primo mandato. In parole, ho bisogno di calcolare i valori di aspettativa di dato che sappiamo che lo stato attuale è . La formula per questo èRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

In altre parole, la probabilità della comparsa della ricompensa è condizionata dallo stato ; stati diversi possono avere ricompense diverse. Questa distribuzione è una distribuzione marginale di una distribuzione che conteneva anche le variabili e , l'azione intrapresa al tempo e lo stato al tempo dopo l'azione, rispettivamente:rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Dove ho usato , seguendo la convenzione del libro. Se quest'ultima uguaglianza è confusa, dimentica le somme, sopprime la (la probabilità ora sembra una probabilità comune), usa la legge della moltiplicazione e infine reintroduci la condizione su in tutti i nuovi termini. Ora è facile capire che il primo termine èπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

come richiesto. Passiamo al secondo termine, dove presumo che sia una variabile casuale che assume un numero finito di valori . Proprio come il primo termine:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Ancora una volta, "annulla marginalizzando" la distribuzione di probabilità scrivendo (di nuovo la legge della moltiplicazione)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

L'ultima riga qui dentro segue dalla proprietà Markovian. Ricorda che è la somma di tutti i premi futuri (scontati) che l'agente riceve dopo lo stato . La proprietà markoviana è che il processo è senza memoria rispetto a stati, azioni e ricompense precedenti. Le azioni future (e le ricompense che raccolgono) dipendono solo dallo stato in cui l'azione è intrapresa, quindi , per ipotesi. Ok, quindi il secondo termine della prova è adessoGt+1 s p ( g | s , r , a , s ) = p ( g | s )sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

come richiesto, ancora una volta. La combinazione dei due termini completa la prova

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

AGGIORNARE

Voglio affrontare quello che potrebbe sembrare un gioco di prestigio nella derivazione del secondo mandato. Nell'equazione contrassegnata con , utilizzo un termine e successivamente nell'equazione contrassegnata dichiaro che non dipende da , sostenendo la proprietà markoviana. Quindi, potresti dire che se questo è il caso, allora . Ma questo non è vero. Posso prendere perché la probabilità sul lato sinistro di quell'affermazione dice che questa è la probabilità di condizionata su , , e()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars. Perché noi sappiamo sia o assumere lo stato , nessuno degli altri condizionali importa, perché della proprietà Markoviano. Se non si conosce o assumere lo stato , poi i futuri benefici (il significato di ) dipenderà da quale stato di iniziare a, perché questo determinerà (in base alla politica), che lo stato si inizia a quando si calcola .ssgsg

Se tale argomento non ti convince, prova a calcolare cos'è :p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Come si può vedere nell'ultima riga, non è vero che . Il valore atteso di dipende dallo stato in cui si inizia (cioè dall'identità di ), se non si conosce o si assume lo stato .p(g|s)=p(g)gss

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.