Scopo del rumore Dirichlet nella carta AlphaZero

10

Nei lavori di DeepMind AlphaGo Zero e AlphaZero , descrivono l'aggiunta del rumore Dirichlet alle precedenti probabilità di azioni dal nodo radice (stato della scheda) in Monte Carlo Tree Search:

Ulteriore esplorazione si ottiene aggiungendo il rumore di Dirichlet alle probabilità precedenti nel nodo radice , in particolare , dove e ; questo rumore assicura che tutte le mosse possano essere provate, ma la ricerca potrebbe ancora prevalere su mosse sbagliate. $s_0$ $P(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_a$ $\eta \sim \text{Dir}(0.03)$ $\varepsilon = 0.25$

(AlphaGo Zero)

E:

Il rumore di Dirichlet stato aggiunto alle probabilità precedenti nel nodo radice; questo è stato ridimensionato in proporzione inversa al numero approssimativo di mosse legali in una posizione tipica, ad un valore di $\text{Dir}(\alpha)$ per scacchi, shogi e Go. $\alpha = \{0.3, \; 0.15, \; 0.03\}$

(AlphaZero)

Due cose che non capisco:

P(s, a)è un vettore dimensionale. È scorciatoia per la distribuzione di Dirichlet con parametri, ognuno con il valore ? $n$ $\text{Dir}(\alpha)$ $n$ $\alpha$
Mi sono imbattuto in Dirichlet solo come priore coniugato della distribuzione multinomiale. Perché è stato scelto qui?

Per il contesto, P(s, a)è solo uno dei componenti del calcolo PUCT (albero di confidenza superiore polinomiale, una variante sui limiti di confidenza superiore) per un dato stato / azione. È ridimensionato da una costante e una metrica per quante volte l'azione data è stata selezionata tra i suoi fratelli durante MCTS e aggiunta al valore d'azione stimato Q(s, a):

PUCT(s, a) = Q(s, a) + U(s, a).
. $U(s,a) = c_{\text{puct}} P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1 + N(s,a)}$

machine-learning neural-networks dirichlet-distribution

— monaco
fonte

1

Va bene, quindi Dir (a) significa davvero Dir (a, a, ...). Per un <1, questo sarà concentrato vicino ai vettori base standard di R ^ n (il più piccolo, più strettamente). Quindi Dirichlet (a) aiuta (1) a mantenere costante la somma dei parametri, (2) si concentra vicino ai vettori di base e (3) preferisce nessuno di essi.

— Monaco

6

$\alpha$

$\alpha$ $\pi$ $Dir(\alpha)(\pi)$ $Cat(\pi)$ $\alpha$

P(s,a)as $Dir(\alpha)$ $pi=$ P(s,a) $\alpha$ $\alpha_i=0$ $\pi\sim Dir(\alpha)$ $\pi_i=0$ $\alpha$

$Dir(0.3)$

— Tomáš Gavenčiak
fonte

3

$\alpha$

Per la domanda 2, i campioni estratti da una distribuzione di Dirichlet hanno la proprietà che gli elementi verranno sommati a 1. Presumo che lo stiano usando per garantire che dopo l'aggiunta del rumore, gli elementi continueranno a essere 1.

— Max S.
fonte

Grazie. Oltre a sommare a uno (cosa che potremmo fare anche ridimensionando una serie di distribuzioni arbitrarie), preferisce i vettori base standard. Questo sembra utile.

— Monaco