Il documento è qui .
La politica di implementazione ... è una politica lineare di softmax basata su funzioni basate su pattern locali veloci, calcolate in modo incrementale ...
Non capisco quale sia la politica di lancio e come sia correlata alla rete delle politiche di selezione di una mossa. Qualche spiegazione più semplice?