La ricerca dell'albero di Monte Carlo si qualifica come apprendimento automatico?


9

Per quanto ne so, l'algoritmo di ricerca dell'albero di Monte Carlo (MCTS) è un'alternativa a minimax per la ricerca di un albero di nodi. Funziona scegliendo una mossa (generalmente quella con la più alta possibilità di essere la migliore), quindi eseguendo un playout casuale sulla mossa per vedere qual è il risultato. Questo processo continua per il tempo assegnato.

Questo non sembra un apprendimento automatico, ma piuttosto un modo per attraversare un albero. Tuttavia, ho sentito che AlphaZero utilizza MCTS, quindi sono confuso. Se AlphaZero utilizza MCTS, perché AlphaZero impara? Oppure AlphaZero ha fatto un qualche tipo di apprendimento automatico prima di giocare qualsiasi partita, e poi ha usato l'intuizione che ha guadagnato dall'apprendimento automatico per sapere quali mosse trascorrere più tempo giocando con MCTS?

Risposte:


6

La ricerca dell'albero di Monte Carlo non viene generalmente considerata una tecnica di apprendimento automatico, ma una tecnica di ricerca. Ci sono parallelismi (MCTS cerca di apprendere schemi generali dai dati, in un certo senso, ma gli schemi non sono molto generali), ma in realtà MCTS non è un algoritmo adatto alla maggior parte dei problemi di apprendimento.

AlphaZero era una combinazione di diversi algoritmi. Uno era MCTS, ma MCTS ha bisogno di una funzione per dirgli quanto potrebbero essere buoni i diversi stati del gioco (oppure, deve simulare interi giochi). Un modo per gestire questa funzione in un gioco come gli scacchi o Go è approssimarlo allenando una rete neurale, cosa che hanno fatto i ricercatori di Deep Mind. Questo è il componente di apprendimento di AlphaZero.


6

La risposta di John è corretta in quanto MCTS non è tradizionalmente visto come un approccio di Machine Learning, ma come un algoritmo di ricerca dell'albero e che AlphaZero lo combina con le tecniche di Machine Learning (Deep Neural Networks e Reinforcement Learning).

Tuttavia, ci sono alcune somiglianze interessanti tra MCTS stesso e Machine Learning. In un certo senso, MCTS tenta di "apprendere" il valore dei nodi dall'esperienza generata attraverso tali nodi. Questo è molto simile a come funziona Reinforcement Learning (RL) (che di solito è descritto come un sottoinsieme di Machine Learning).

Alcuni ricercatori hanno anche sperimentato sostituzioni per la tradizionale fase di Backpropagation di MCTS (che, da un punto di vista RL, può essere descritta come implementazione di backup Monte-Carlo) basata su altri metodi RL (ad esempio, backup di differenze temporali) . Un documento completo che descrive questo tipo di somiglianze tra MCTS e RL è: Sulla ricerca dell'albero di Monte Carlo e sull'apprendimento per rinforzo .

Si noti inoltre che la fase di selezione di MCTS viene in genere trattata come una sequenza di piccoli problemi Multi-Armed Bandit e che tali problemi hanno anche forti connessioni con RL.


TL; DR : MCTS non viene normalmente visto come una tecnica di Machine Learning, ma se lo si ispeziona da vicino, è possibile trovare molte somiglianze con ML (in particolare, Reinforcement Learning).


1

Benvenuti nel campo minato delle definizioni semantiche all'interno dell'IA! Secondo l'Enciclopedia Britannica ML è una "disciplina che riguarda l'implementazione di software che può imparare autonomamente". Ci sono un sacco di altre definizioni per ML ma generalmente sono tutte vaghe, dicendo qualcosa su "apprendimento", "esperienza", "autonomo", ecc. In ordine variabile. Non esiste una definizione di benchmark ben nota che la maggior parte delle persone utilizza, quindi a meno che non si voglia proporne una, qualunque cosa si post su questo deve essere supportata da riferimenti.

Secondo la definizione di Encyclopedia Britannica il caso di chiamare MCTS parte di ML è piuttosto forte (Chaslot, il lavoro di Coulom e altri dal 2006-8 sono usati come riferimento MCTS). Esistono due criteri utilizzati in MCTS, un criterio albero e un criterio di simulazione. Al momento della decisione, la politica ad albero aggiorna i valori di azione espandendo la struttura ad albero e eseguendo il backup dei valori da qualsiasi cosa trovi dalla ricerca. Non esiste un hard-coding su quali nodi devono essere selezionati / espansi; tutto deriva dalla massimizzazione dei premi dalle statistiche. I nodi più vicini alla radice appaiono sempre più intelligenti mentre "imparano" a imitare distribuzioni / stato e / o valori di azione da quelli corrispondenti dalla realtà. Se questo possa essere chiamato "autonomo" è una domanda altrettanto difficile perché alla fine sono gli umani che hanno scritto le formule / teoria che MCTS usa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.