Come funziona la "ricerca Monte-Carlo"?


16

Ho sentito parlare di questo concetto in un post di Reddit su Alpha Go. Ho provato a leggere l'articolo e l'articolo, ma non riuscivo a dare un senso all'algoritmo.

Quindi, qualcuno può dare una spiegazione di facile comprensione di come funziona l'algoritmo di ricerca Monte-Carlo e come viene utilizzato nella costruzione di robot di intelligenza artificiale?


Una bella descrizione dell'algoritmo MCTS è disponibile all'indirizzo: https://towardsdatascience.com/monte-carlo-tree-search-in-reinforcement-learning-b97d3e743d0f .
nbro,

Risposte:


13

Il metodo Monte Carlo è un approccio in cui si genera un gran numero di valori casuali o simulazioni e si forma una sorta di congestioni basate sui modelli generali, come le medie e le varianze.

Ad esempio, potresti usarlo per le previsioni del tempo . La previsione del tempo a lungo termine è piuttosto difficile, perché è un sistema caotico in cui piccoli cambiamenti possono portare a risultati molto diversi. Utilizzando i metodi Monte Carlo, è possibile eseguire un gran numero di simulazioni, ognuna con cambiamenti atmosferici leggermente diversi. Quindi è possibile analizzare i risultati e, ad esempio, calcolare la probabilità di pioggia in un determinato giorno in base a quante simulazioni sono finite con la pioggia.

Per quanto riguarda l'uso di Monte Carlo in Alpha Go, sembrano utilizzare la cosiddetta ricerca dell'albero di Monte Carlo . In questo approccio, fai un albero di possibili mosse, qualche giro nel futuro e cerchi di trovare la sequenza migliore. Tuttavia, poiché il numero di mosse possibili nel gioco del lancio è molto elevato, non sarai in grado di esplorare molto avanti. Ciò significa che alcune delle mosse che sembrano buone ora potrebbero rivelarsi cattive in seguito.

Quindi, nella ricerca dell'albero di Monte Carlo, scegli una sequenza promettente di mosse ed esegui una o più simulazioni di come il gioco potrebbe procedere da quel punto. Quindi puoi usare i risultati di quella simulazione per avere un'idea più precisa di quanto sia realmente valida quella specifica sequenza di mosse e aggiorni l'albero di conseguenza. Ripeti se necessario fino a trovare una buona mossa.

Se vuoi maggiori informazioni o guardare alcune illustrazioni, ho trovato un articolo interessante sull'argomento: C. Browne et al., A Survey of Monte Carlo Tree Search Methods ( open repository / link permanente (paywalled) )


Quindi sostanzialmente ciò che Monte Carlo fa in Alphago è creare strategie a lungo termine, considerando diverse combinazioni di mosse, invece del contrario (scegli una strategia e poi le mosse per raggiungerla)?
Diego Antonio Rosario Palomino,

Non si fa menzione dell'elemento chiave dell'approccio Monte Carlo, che è l'elemento stocastico integrato nella selezione delle mosse disponibili per indagare. Né è stato menzionato il compromesso dell'esattezza per ottenere un'elaborazione più snella. Questi sono i due aspetti più importanti e sono assenti dalla risposta. Invece, è stato menzionato "un gran numero di valori casuali o simulazioni", quando è un numero minore di simulazioni da fattori pseudo-casuali (una ricerca meno esaustiva) che è caratteristica della convergenza di Monte Carlo.
FauChristian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.