In robotica, la tecnica di apprendimento del rinforzo viene utilizzata per trovare il modello di controllo per un robot. Sfortunatamente, la maggior parte dei metodi di gradiente politico sono statisticamente di parte che potrebbero portare il robot in una situazione pericolosa, vedere pagina 2 in Jan Peters e Stefan Schaal: Apprendimento rafforzato delle abilità motorie con gradienti politici, 2008
Con l'apprendimento motorio primitivo, è possibile superare il problema poiché l'ottimizzazione dei parametri del gradiente delle politiche indirizza i passi di apprendimento verso l'obiettivo.
citazione: “Se la stima del gradiente è imparziale e i tassi di apprendimento soddisfano la somma (a) = 0, il processo di apprendimento è garantito per convergere ad almeno un minimo locale [...] Pertanto, dobbiamo stimare il gradiente della politica solo dai dati generati durante l'esecuzione di un'attività. "(Pagina 4 della stessa carta)
Nei compiti a casa per la classe R di Berkeley Problema 1, ti chiede di mostrare che il gradiente della politica è ancora imparziale se la linea di base sottratta è una funzione dello stato al momento t t.
Sto lottando per capire quale potrebbe essere il primo passo di tale prova. Qualcuno può indicarmi la giusta direzione? Il mio pensiero iniziale era di usare in qualche modo la legge dell'aspettativa totale per subordinare l'aspettativa di b (st) a T, ma non ne sono sicuro. Grazie in anticipo :)