Nei lavori di DeepMind AlphaGo Zero e AlphaZero , descrivono l'aggiunta del rumore Dirichlet alle precedenti probabilità di azioni dal nodo radice (stato della scheda) in Monte Carlo Tree Search:
Ulteriore esplorazione si ottiene aggiungendo il rumore di Dirichlet alle probabilità precedenti nel nodo radice , in particolare P ( s , a ) = ( 1 - ε ) p a + ε η a , dove η ∼ Dir ( 0.03 ) e ε = 0.25 ; questo rumore assicura che tutte le mosse possano essere provate, ma la ricerca potrebbe ancora prevalere su mosse sbagliate.
(AlphaGo Zero)
E:
Il rumore di Dirichlet stato aggiunto alle probabilità precedenti nel nodo radice; questo è stato ridimensionato in proporzione inversa al numero approssimativo di mosse legali in una posizione tipica, ad un valore di α = { 0,3 , per scacchi, shogi e Go.
(AlphaZero)
Due cose che non capisco:
P(s, a)è un vettore dimensionale. È Dir ( α ) scorciatoia per la distribuzione di Dirichlet con n parametri, ognuno con il valore α ?Mi sono imbattuto in Dirichlet solo come priore coniugato della distribuzione multinomiale. Perché è stato scelto qui?
Per il contesto, P(s, a)è solo uno dei componenti del calcolo PUCT (albero di confidenza superiore polinomiale, una variante sui limiti di confidenza superiore) per un dato stato / azione. È ridimensionato da una costante e una metrica per quante volte l'azione data è stata selezionata tra i suoi fratelli durante MCTS e aggiunta al valore d'azione stimato Q(s, a):
PUCT(s, a) = Q(s, a) + U(s, a).- .