Non sono uno specialista in materia e la mia domanda è probabilmente molto ingenua. Deriva da un saggio per comprendere i poteri e le limitazioni dell'apprendimento per rinforzo come usato nel programma AlphaGo.
Il programma AlphaGo è stato realizzato utilizzando, tra le altre cose (esplorazione degli alberi di Monte-Carlo, ecc.) Reti neurali che sono addestrate da un enorme database di giochi go giocati dall'uomo, e che sono poi rafforzate lasciando entrare versioni del programma contro se stesso molte volte.
Ora mi chiedo cosa succederebbe se avessimo provato a costruire un programma del genere senza database umano, ovvero iniziando con un programma base di Go solo conoscendo le regole e alcuni metodi per esplorare gli alberi e lasciando che giocasse contro se stesso per migliorare la sua rete neurale. Riusciremo, dopo molte partite contro se stesso, a un programma in grado di competere con o battere i migliori giocatori umani? E se sì, quanti giochi (in ordine di grandezza) sarebbero necessari per questo? O al contrario, un tale programma converge verso un giocatore molto più debole?
Presumo che l'esperimento non sia stato effettuato, poiché AlphaGo è così recente. Tuttavia, la risposta può essere ovvia per uno specialista. Altrimenti qualsiasi ipotesi istruita mi interesserà.
Si può anche porre la stessa domanda per i giochi "più semplici". Se usassimo all'incirca le stesse tecniche di apprendimento del rinforzo utilizzate per AlphaGo, ma senza l'uso del database umano, per un programma di scacchi, alla fine avremmo un programma in grado di battere il miglior essere umano? E se è così, quanto velocemente? Questo è stato provato? O se non fosse per gli scacchi, che dire di Dama o anche di giochi più semplici?
Molte grazie.