Qual è la politica di lancio nel documento di AlphaGo?


11

Il documento è qui .

La politica di implementazione ... è una politica lineare di softmax basata su funzioni basate su pattern locali veloci, calcolate in modo incrementale ...

Non capisco quale sia la politica di lancio e come sia correlata alla rete delle politiche di selezione di una mossa. Qualche spiegazione più semplice?


Il documento sembra essere dietro un paywall ...
Vladislavs Dovgalecs,

@xeon Non posso farci niente. Ho pieno accesso al documento ma non riesco a caricarlo qui (leggi sul copyright). Forse google in giro se qualcun altro ne ha una copia?
HelloWorld

Risposte:


11

p(un'|S)un'Sp

Quando affermano che la politica di lancio (credo che abbiano preso in prestito il termine "lancio" dal backgammon) è una funzione di softmax lineare, si riferiscono a una generalizzazione della funzione sigmoide utilizzata nella regressione logistica. Questa funzione assume la forma

eβioTXΣj=1KeβjTX

Xβioun'io

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.