L' articolo AlphaGo Zero di Nature , "Padroneggiare il gioco del gioco senza conoscenza umana", afferma quattro differenze principali rispetto alla versione precedente:
- Solo autoapprendimento (non addestrato sui giochi umani)
- Utilizzando solo la lavagna e le pietre come input (nessuna funzione scritta a mano).
- Utilizzo di un'unica rete neurale per politiche e valori
- Un nuovo algoritmo di ricerca dell'albero che utilizza questa rete combinata di criteri / valori per guidare dove cercare buone mosse.
I punti (1) e (2) non sono nuovi nell'apprendimento del rinforzo, ma migliorano sul precedente software AlphaGo come indicato nei commenti alla tua domanda. Significa solo che ora stanno usando l'apprendimento di rinforzo puro a partire da pesi inizializzati casualmente. Ciò è reso possibile da algoritmi di apprendimento migliori e più veloci.
La loro affermazione qui è "Il nostro principale contributo è dimostrare che si possono ottenere prestazioni sovrumane senza la conoscenza del dominio umano". (p. 22).
I punti (3) e (4) sono nuovi nel senso che il loro algoritmo è più semplice e più generale del loro approccio precedente. Dicono anche che si tratta di un miglioramento rispetto ai precedenti lavori di Guo et al.
L'unificazione della rete politica / dei valori (3) consente loro di implementare una variante più efficiente della ricerca dell'albero di Monte-Carlo per cercare buone mosse e simultaneamente utilizzando l'albero di ricerca per addestrare la rete più velocemente (4). Questo è molto potente.
Inoltre, descrivono una serie di interessanti dettagli di implementazione come il raggruppamento e il riutilizzo di strutture di dati per ottimizzare la ricerca di nuove mosse.
L'effetto è che ha bisogno di meno potenza di elaborazione, in esecuzione su 4 TPU anziché 176 GPU e 48 TPU per le versioni precedenti del loro software.
Questo lo rende sicuramente "romanzo" nel contesto del software Go. Credo che (3) e (4) siano anche "nuovi" in un contesto più ampio e saranno applicabili in altri settori dell'apprendimento del rinforzo come ad esempio la robotica.