Perché la linea di base è condizionata dallo stato in alcuni timestep imparziale?


9

In robotica, la tecnica di apprendimento del rinforzo viene utilizzata per trovare il modello di controllo per un robot. Sfortunatamente, la maggior parte dei metodi di gradiente politico sono statisticamente di parte che potrebbero portare il robot in una situazione pericolosa, vedere pagina 2 in Jan Peters e Stefan Schaal: Apprendimento rafforzato delle abilità motorie con gradienti politici, 2008

Con l'apprendimento motorio primitivo, è possibile superare il problema poiché l'ottimizzazione dei parametri del gradiente delle politiche indirizza i passi di apprendimento verso l'obiettivo.

citazione: “Se la stima del gradiente è imparziale e i tassi di apprendimento soddisfano la somma (a) = 0, il processo di apprendimento è garantito per convergere ad almeno un minimo locale [...] Pertanto, dobbiamo stimare il gradiente della politica solo dai dati generati durante l'esecuzione di un'attività. "(Pagina 4 della stessa carta)

Nei compiti a casa per la classe R di Berkeley Problema 1, ti chiede di mostrare che il gradiente della politica è ancora imparziale se la linea di base sottratta è una funzione dello stato al momento t t.

θt=1TE(st,at)p(st,at)[b(st)]=0

Sto lottando per capire quale potrebbe essere il primo passo di tale prova. Qualcuno può indicarmi la giusta direzione? Il mio pensiero iniziale era di usare in qualche modo la legge dell'aspettativa totale per subordinare l'aspettativa di b (st) a T, ma non ne sono sicuro. Grazie in anticipo :)

collegamento al png originale dell'equazione


Benvenuti in SE: AI! (Mi sono preso la libertà di convertire l'equazione in MathJax. L'originale .png è collegato in basso.)
DukeZhou

2
Non ho davvero molto tempo per scrivere le equazioni esatte e formattarle (forse più tardi se ancora non si risponde) con LaTeX, ma ecco un suggerimento. Volete avere che la somma non dipende dalla politica in modo che la derivata sia 0. Quindi in qualche modo provate ad esprimere le cose usando la politica p (s, a). La risposta tra l'altro si trova anche nel libro di introduzione RL di Sutton nel capitolo sul gradiente delle politiche.
Hai Nguyen,

1
Grazie mille! Userò quel suggerimento per iniziare, oltre a ringraziarmi per avermi detto che si trova in Sutton RL. Sto leggendo quel libro ed è abbastanza eccellente!
Laura C,

@LauraC se trovi la risposta prima di chiunque altro, per favore torna indietro e pubblica qui come risposta formale (alla gente sicuramente piace questa domanda :)
DukeZhou

Ho aggiunto informazioni di contesto per la domanda.
Manuel Rodriguez,

Risposte:


7

Utilizzando la legge delle aspettative ripetute si ha:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

scritto con integrali e spostando il gradiente all'interno (linearità) si ottiene

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

ora puoi spostare (a causa della linearità) e (non dipende da ) interno a quello esterno:θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) è una funzione (condizionale) di densità di probabilità, quindi l'integrazione su tutto per un dato stato fisso uguale a :atst1

=t=1Tstp(st)b(st)θ1dst=

Ora , che conclude la prova.θ1=0


1

Sembra che i compiti fossero dovuti due giorni prima della stesura di questa risposta, ma nel caso in cui sia ancora rilevante in qualche modo, le note di classe pertinenti (che sarebbero state utili se fornite nella domanda insieme ai compiti) sono qui .

La prima istanza di aspettativa posta sullo studente è: "Per favore, mostra l'equazione 12 usando la legge delle aspettative iterate, rompendo disaccoppiando l'azione statale marginale dal resto della traiettoria ". L'equazione 12 è questa.Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

Le note della classe identificano come il marginale stato-azione. Non è una prova richiesta, ma una sequenza di passaggi algebrici per eseguire il disaccoppiamento e mostrare fino a che punto si può raggiungere l'indipendenza del marginale stato-azione.πθ(at|st)

Questo esercizio è una preparazione per il prossimo passo nei compiti a casa e si basa solo sulla revisione di CS189, il corso di Introduzione all'apprendimento automatico di Burkeley, che non contiene la Legge delle aspettative totali nel suo programma o nelle note di classe.

Tutte le informazioni rilevanti si trovano nel link sopra per le note di classe e richiedono solo algebra intermedia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.