Domande taggate «trpo»

Come possono essere applicati i gradienti politici nel caso di più azioni continue?

Trusted Region Policy Optimization (TRPO) e Proximal Policy Optimization (PPO) sono due algoritmi di gradienti di politica all'avanguardia. Quando si utilizza una singola azione continua, normalmente, si utilizzerà una distribuzione di probabilità (ad esempio, gaussiana) per la funzione di perdita. La versione approssimativa è: L ( θ ) = log( …

11 deep-learning reinforcement-learning trpo

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.