Che cos'è il "nuovo algoritmo di apprendimento del rinforzo" in AlphaGo Zero?


10

Per qualche ragione, AlphaGo Zero non sta ottenendo la stessa pubblicità dell'originale AlphaGo, nonostante i suoi incredibili risultati. A partire da zero, ha già battuto AlphaGo Master e ha superato numerosi altri benchmark. Ancora più incredibilmente, lo ha fatto in 40 giorni. Google lo definisce "probabilmente il miglior giocatore Go al mondo" .

DeepMind afferma che si tratta di una "nuova forma di apprendimento per rinforzo" - questa tecnica è davvero nuova? O ci sono state altre volte in cui è stata utilizzata questa tecnica- e in tal caso, quali sono stati i loro risultati? Penso che i requisiti di cui sto parlando siano 1) nessun intervento umano e 2) nessun gioco storico, ma questi sono flessibili.

Questa sembra essere una domanda simile, ma tutte le risposte sembrano partire dal presupposto che AlphaGo Zero è il primo del suo genere.


L'apprendimento per rinforzo non è nuovo. Quali tecniche ha affermato Google di essere le prime?
HelloWorld,

C'è una citazione a riguardo sul sito web collegato e nell'articolo usano la frase "La rete neurale in AlphaGo Zero è addestrata da giochi di auto-gioco da un nuovo algoritmo di apprendimento di rinforzo".
Dubukay,

1
L'auto-gioco non è sicuramente nuovo. Esisteva prima di Google. Ci sono dettagli nel loro algoritmo che li rendono "romanzi". Forse qualcun altro può rispondere.
HelloWorld,

2
Lo capisco, immagino che sto cercando di capire cosa ha reso il loro approccio così incredibilmente buono e se è qualcosa che dovremmo aspettarci di vedere in altre aree. È una nuova filosofia o semplicemente un ottimo codice?
Dubukay,

1
Ho trovato una copia del documento qui: nature.com/articles/… (include il token di accesso alla condivisione, che proviene dal blog che lo collega, quindi è una condivisione pubblica legittima AFAICS). Anche dopo aver letto la descrizione, anche se è difficile scegliere la vera novità - tutte le idee individuali sembrano essere tecniche RL / di gioco preesistenti, potrebbe essere solo una combinazione specifica di esse che è romanzo
Neil Slater,

Risposte:


6

L' articolo AlphaGo Zero di Nature , "Padroneggiare il gioco del gioco senza conoscenza umana", afferma quattro differenze principali rispetto alla versione precedente:

  1. Solo autoapprendimento (non addestrato sui giochi umani)
  2. Utilizzando solo la lavagna e le pietre come input (nessuna funzione scritta a mano).
  3. Utilizzo di un'unica rete neurale per politiche e valori
  4. Un nuovo algoritmo di ricerca dell'albero che utilizza questa rete combinata di criteri / valori per guidare dove cercare buone mosse.

I punti (1) e (2) non sono nuovi nell'apprendimento del rinforzo, ma migliorano sul precedente software AlphaGo come indicato nei commenti alla tua domanda. Significa solo che ora stanno usando l'apprendimento di rinforzo puro a partire da pesi inizializzati casualmente. Ciò è reso possibile da algoritmi di apprendimento migliori e più veloci.

La loro affermazione qui è "Il nostro principale contributo è dimostrare che si possono ottenere prestazioni sovrumane senza la conoscenza del dominio umano". (p. 22).

I punti (3) e (4) sono nuovi nel senso che il loro algoritmo è più semplice e più generale del loro approccio precedente. Dicono anche che si tratta di un miglioramento rispetto ai precedenti lavori di Guo et al.

L'unificazione della rete politica / dei valori (3) consente loro di implementare una variante più efficiente della ricerca dell'albero di Monte-Carlo per cercare buone mosse e simultaneamente utilizzando l'albero di ricerca per addestrare la rete più velocemente (4). Questo è molto potente.

Inoltre, descrivono una serie di interessanti dettagli di implementazione come il raggruppamento e il riutilizzo di strutture di dati per ottimizzare la ricerca di nuove mosse.

L'effetto è che ha bisogno di meno potenza di elaborazione, in esecuzione su 4 TPU anziché 176 GPU e 48 TPU per le versioni precedenti del loro software.

Questo lo rende sicuramente "romanzo" nel contesto del software Go. Credo che (3) e (4) siano anche "nuovi" in un contesto più ampio e saranno applicabili in altri settori dell'apprendimento del rinforzo come ad esempio la robotica.


Penso che (4) sia accennato nelle lezioni di David Silver - lezione 10 sui giochi classici - in molti casi esistenti l'MCTS è guidato dal ML già addestrato. Nel caso di AlphaGo Zero, questo viene capovolto e il risultato dell'MCTS viene utilizzato per impostare gli obiettivi di apprendimento per la ML. Tuttavia, la cosa che mi fa domandare se sia veramente "romanzo" è la possibilità di fare proprio questo è menzionato nella lezione. . .
Neil Slater,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.