Per quanto ne so, l'algoritmo di ricerca dell'albero di Monte Carlo (MCTS) è un'alternativa a minimax per la ricerca di un albero di nodi. Funziona scegliendo una mossa (generalmente quella con la più alta possibilità di essere la migliore), quindi eseguendo un playout casuale sulla mossa per vedere qual è il risultato. Questo processo continua per il tempo assegnato.
Questo non sembra un apprendimento automatico, ma piuttosto un modo per attraversare un albero. Tuttavia, ho sentito che AlphaZero utilizza MCTS, quindi sono confuso. Se AlphaZero utilizza MCTS, perché AlphaZero impara? Oppure AlphaZero ha fatto un qualche tipo di apprendimento automatico prima di giocare qualsiasi partita, e poi ha usato l'intuizione che ha guadagnato dall'apprendimento automatico per sapere quali mosse trascorrere più tempo giocando con MCTS?