1
Come possono essere applicati i gradienti politici nel caso di più azioni continue?
Trusted Region Policy Optimization (TRPO) e Proximal Policy Optimization (PPO) sono due algoritmi di gradienti di politica all'avanguardia. Quando si utilizza una singola azione continua, normalmente, si utilizzerà una distribuzione di probabilità (ad esempio, gaussiana) per la funzione di perdita. La versione approssimativa è: L ( θ ) = log( …