Trusted Region Policy Optimization (TRPO) e Proximal Policy Optimization (PPO) sono due algoritmi di gradienti di politica all'avanguardia.
Quando si utilizza una singola azione continua, normalmente, si utilizzerà una distribuzione di probabilità (ad esempio, gaussiana) per la funzione di perdita. La versione approssimativa è:
dove è il vantaggio dei premi, è caratterizzato da e che esce dalla rete neurale come nell'ambiente Pendulum qui: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f /hw4/main.py .
Il problema è che non riesco a trovare alcun documento su 2+ azioni continue usando gradienti politici (non metodi attore-critici che usano un approccio diverso trasferendo il gradiente dalla funzione Q).
Sai come farlo usando TRPO per 2 azioni continue in ambiente LunarLander ?
Il seguente approccio è corretto per la funzione di perdita gradiente delle politiche?