Nei lavori di DeepMind AlphaGo Zero e AlphaZero , descrivono l'aggiunta del rumore Dirichlet alle precedenti probabilità di azioni dal nodo radice (stato della scheda) in Monte Carlo Tree Search:
Ulteriore esplorazione si ottiene aggiungendo il rumore di Dirichlet alle probabilità precedenti nel nodo radice , in particolare P ( s , a ) = ( 1 - ε ) p a + ε η a , dove η ∼ Dir ( 0.03 ) e ε = 0.25 ; questo rumore assicura che tutte le mosse possano essere provate, ma la ricerca potrebbe ancora prevalere su mosse sbagliate.
(AlphaGo Zero)
E:
Il rumore di Dirichlet stato aggiunto alle probabilità precedenti nel nodo radice; questo è stato ridimensionato in proporzione inversa al numero approssimativo di mosse legali in una posizione tipica, ad un valore di α = { 0,3 , per scacchi, shogi e Go.
(AlphaZero)
Due cose che non capisco:
P(s, a)
è un vettore dimensionale. È Dir ( α ) scorciatoia per la distribuzione di Dirichlet con n parametri, ognuno con il valore α ?Mi sono imbattuto in Dirichlet solo come priore coniugato della distribuzione multinomiale. Perché è stato scelto qui?
Per il contesto, P(s, a)
è solo uno dei componenti del calcolo PUCT (albero di confidenza superiore polinomiale, una variante sui limiti di confidenza superiore) per un dato stato / azione. È ridimensionato da una costante e una metrica per quante volte l'azione data è stata selezionata tra i suoi fratelli durante MCTS e aggiunta al valore d'azione stimato Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .