Vedo la seguente equazione in " In Reinforcement Learning. An Introduction ", ma non seguo del tutto il passaggio che ho evidenziato in blu di seguito. Come si deriva esattamente questo passaggio?
Vedo la seguente equazione in " In Reinforcement Learning. An Introduction ", ma non seguo del tutto il passaggio che ho evidenziato in blu di seguito. Come si deriva esattamente questo passaggio?
Risposte:
Questa è la risposta per tutti coloro che si chiedono la matematica pulita e strutturata dietro di essa (cioè se appartieni a un gruppo di persone che sa cos'è una variabile casuale e che devi mostrare o presumere che una variabile casuale abbia una densità, allora questo è la risposta per te ;-)):
Prima di tutto dobbiamo avere che il processo decisionale di Markov ha solo un numero finito di -reward, cioè abbiamo bisogno che esista un insieme finito di densità, ciascuna appartenente a variabili , cioè per tutti e una mappa tale che
(cioè negli automi dietro l'MDP, potrebbero esserci infiniti stati ma ci sono solo finitamente molte distribuzioni di ricompense associate alle transizioni forse infinite tra gli stati)
Teorema 1 : Consenti (ovvero una variabile casuale reale integrabile) e lascia che sia un'altra variabile casuale tale che abbiano una densità comune quindi
Prova : essenzialmente dimostrato qui da Stefan Hansen.
Teorema 2 : Sia e siano ulteriori variabili casuali tali che abbiano una densità comune quindi
dove è nell'intervallo .
Prova :
Inserisci e inserisci allora si può mostrare (usando il fatto che MDP ha solo finitamente molti -rewards) che converge e che dalla funzioneè ancora in (cioè integrabile) si può anche mostrare (usando la consueta combinazione dei teoremi della convergenza monotona e quindi dominata la convergenza sulle equazioni che definiscono [le fattorizzazioni di] l'attesa condizionale) che
Ora uno lo mostra
[ G ( K ) t | S t = s t ] = E [ G t | S t = s t ] | s t
O lo spazio degli stati è finito (quindi e la somma è finita) o tutte le ricompense sono tutte positive (quindi usiamo la convergenza monotona) o tutte le ricompense sono negative (quindi mettiamo un segno meno davanti al equazione e usa di nuovo la convergenza monotona) o tutte le ricompense sono limitate (quindi usiamo la convergenza dominata). Quindi (applicando su entrambi i lati dell'equazione Bellman parziale / finita sopra) otteniamo
e poi il resto è la solita manipolazione della densità.
NOTA: Anche in compiti molto semplici lo spazio degli stati può essere infinito! Un esempio potrebbe essere il compito di "bilanciare un polo". Lo stato è essenzialmente l'angolo del polo (un valore in , un insieme infinito infinito!)
NOTA: le persone potrebbero commentare 'impasto, questa prova può essere abbreviata molto di più se si utilizza direttamente la densità di e si mostra che '... MA ... le mie domande sarebbero:
Lascia che la somma totale dei premi scontati dopo il tempo sia:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .
Valore d'uso di partire in stato, al momento, è equivalente a somma attesa di
ricompense scontati di eseguire la politica a partire da stato in poi.
Per definizione di Per legge di linearità
Per legge dit R π s U π ( S t = s ) = E π [ G t | S t = s ]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]
= E π [ R t + 1 | S t = s ] + γ E π [ UAspettativa totale
Per definizione di Per legge di linearità
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ′ ) | S t = s ]
Supponendo che le soddisfa processo di Markov di proprietà:
Probabilità di finire in stato di avendo iniziato da stato e intrapreso azioni ,
e
ricompensa di finire nello stato che è iniziato dallo stato e ha intrapreso un'azione ,
s ′ s a P r ( s ′ | s , a ) = P r ( S t + 1 = s ′ , S t = s , A t = a ) R s ′ s a R ( s , a , s ′ ) = [ R t + 1 | S t
Quindi possiamo riscrivere sopra l'equazione dell'utilità come,
Dove; : probabilità di agire in stato per una politica stocastica. Per la politica deterministica,a s ∑ a π ( a | s ) = 1
Ecco la mia prova. Si basa sulla manipolazione di distribuzioni condizionate, che ne facilita il seguito. Spero che questo ti aiuti.
Qual è il seguente approccio?
Le somme vengono introdotte per recuperare , e da . Dopotutto, le azioni possibili e i possibili stati successivi possono essere. Con queste condizioni extra, la linearità dell'aspettativa porta al risultato quasi direttamente.s ′ r s
Non sono sicuro di quanto matematicamente sia rigorosa la mia tesi. Sono aperto a miglioramenti.
Questo è solo un commento / aggiunta alla risposta accettata.
Ero confuso nella linea in cui viene applicata la legge dell'aspettativa totale. Non credo che la principale forma di legge dell'aspettativa totale possa aiutare qui. Una variante di questo è in effetti necessaria qui.
Se sono variabili casuali e presupponendo che esistano tutte le aspettative, vale la seguente identità:
In questo caso, , e . Poi
, che secondo Markov proprietà eqauls to
Da lì, si potrebbe seguire il resto della prova dalla risposta.
π π ( a | s ) a s solito indica le aspettative supponendo che l'agente segua la politica . In questo caso sembra non deterministico, ovvero restituisce la probabilità che l'agente agisca quando si trova nello stato .
Sembra che , in minuscolo, sta sostituendo , una variabile casuale. La seconda aspettativa sostituisce la somma infinita, per riflettere l'assunto che continuiamo a seguire per tutto il futuro . è quindi la ricompensa immediata prevista nel passaggio successivo; La seconda aspettativa — che diventa — è il valore atteso dello stato successivo, ponderato dalla probabilità di liquidazione nello stato che ha preso da .R t + 1 π t ∑ s ′ , r r ⋅ p ( s ′ , r | s , a ) v π s ′ a s
Pertanto, le aspettative spiegano la probabilità della politica e le funzioni di transizione e ricompensa, qui espresse insieme come .
anche se la risposta corretta è già stata data e è trascorso un po 'di tempo, ho pensato che la seguente guida passo passo potesse essere utile:
Per linearità del valore atteso possiamo dividere
in e .
Descriverò i passaggi solo per la prima parte, poiché la seconda parte seguirà gli stessi passaggi combinati con la Legge delle aspettative totali.
Considerando che (III) segue la forma:
So che esiste già una risposta accettata, ma desidero fornire una derivazione probabilmente più concreta. Vorrei anche ricordare che sebbene il trucco di @Jie Shi abbia un po 'di senso, ma mi fa sentire molto a disagio :(. Dobbiamo considerare la dimensione temporale per far funzionare questo. Ed è importante notare che l'aspettativa è in realtà ripreso l'intero orizzonte infinito, piuttosto che a poco più di e . Prendiamo per scontato partiamo da (in realtà, la derivazione è lo stesso a prescindere dal tempo di partenza, io non voglio contaminare le equazioni con un altro pedice )
In questa fase, credo che la maggior parte di noi dovrebbe già avere in mente come quanto sopra porta all'espressione finale - dobbiamo solo applicare la regola di somma-prodotto ( ) scrupolosamente . Applichiamo la legge di linearità dell'Attesa a ciascun termine all'interno del
Parte 1
Bene, questo è piuttosto banale, tutte le probabilità scompaiono (in realtà si sommano a 1) tranne quelle relative a . Pertanto, abbiamo
Parte 2
Indovina un po ', questa parte è ancora più banale: implica solo riorganizzare la sequenza delle sommazioni.
E Eureka !! recuperiamo uno schema ricorsivo a fianco delle grandi parentesi. Combiniamolo con e otteniamo
e la parte 2 diventa
Parte 1 + Parte 2
E ora se riusciamo a infilare nella dimensione temporale e recuperare le formule ricorsive generali
Confessione finale, ho riso quando ho visto le persone sopra menzionate l'uso della legge dell'aspettativa totale. Quindi eccomi qui
Ci sono già molte risposte a questa domanda, ma la maggior parte comprende poche parole che descrivono cosa sta succedendo nelle manipolazioni. Ho intenzione di rispondere usando molte più parole, credo. Iniziare,
è definito nell'equazione 3.11 di Sutton e Barto, con un fattore di sconto costante e possiamo avere o , ma non entrambi. Poiché i premi, , sono variabili casuali, così è in quanto è semplicemente una combinazione lineare di variabili casuali.
Quest'ultima riga deriva dalla linearità dei valori di aspettativa. è la ricompensa che l'agente ottiene dopo aver intrapreso un'azione nel passaggio . Per semplicità, presumo che possa assumere un numero finito di valori .
Lavora sul primo mandato. In parole, ho bisogno di calcolare i valori di aspettativa di dato che sappiamo che lo stato attuale è . La formula per questo è
In altre parole, la probabilità della comparsa della ricompensa è condizionata dallo stato ; stati diversi possono avere ricompense diverse. Questa distribuzione è una distribuzione marginale di una distribuzione che conteneva anche le variabili e , l'azione intrapresa al tempo e lo stato al tempo dopo l'azione, rispettivamente:
Dove ho usato , seguendo la convenzione del libro. Se quest'ultima uguaglianza è confusa, dimentica le somme, sopprime la (la probabilità ora sembra una probabilità comune), usa la legge della moltiplicazione e infine reintroduci la condizione su in tutti i nuovi termini. Ora è facile capire che il primo termine è
come richiesto. Passiamo al secondo termine, dove presumo che sia una variabile casuale che assume un numero finito di valori . Proprio come il primo termine:
Ancora una volta, "annulla marginalizzando" la distribuzione di probabilità scrivendo (di nuovo la legge della moltiplicazione)
L'ultima riga qui dentro segue dalla proprietà Markovian. Ricorda che è la somma di tutti i premi futuri (scontati) che l'agente riceve dopo lo stato . La proprietà markoviana è che il processo è senza memoria rispetto a stati, azioni e ricompense precedenti. Le azioni future (e le ricompense che raccolgono) dipendono solo dallo stato in cui l'azione è intrapresa, quindi , per ipotesi. Ok, quindi il secondo termine della prova è adesso s ′ p ( g | s ′ , r , a , s ) = p ( g | s ′ )
come richiesto, ancora una volta. La combinazione dei due termini completa la prova
AGGIORNARE
Voglio affrontare quello che potrebbe sembrare un gioco di prestigio nella derivazione del secondo mandato. Nell'equazione contrassegnata con , utilizzo un termine e successivamente nell'equazione contrassegnata dichiaro che non dipende da , sostenendo la proprietà markoviana. Quindi, potresti dire che se questo è il caso, allora . Ma questo non è vero. Posso prendere perché la probabilità sul lato sinistro di quell'affermazione dice che questa è la probabilità di condizionata su , , e. Perché noi sappiamo sia o assumere lo stato , nessuno degli altri condizionali importa, perché della proprietà Markoviano. Se non si conosce o assumere lo stato , poi i futuri benefici (il significato di ) dipenderà da quale stato di iniziare a, perché questo determinerà (in base alla politica), che lo stato si inizia a quando si calcola .
Se tale argomento non ti convince, prova a calcolare cos'è :
Come si può vedere nell'ultima riga, non è vero che . Il valore atteso di dipende dallo stato in cui si inizia (cioè dall'identità di ), se non si conosce o si assume lo stato .