L'apprendimento del gioco DQN Atari di DeepMind è stato simultaneo?


9

DeepMind afferma che la loro profonda rete Q (DQN) è stata in grado di adattare continuamente il suo comportamento mentre imparava a giocare con 49 giochi Atari.

Dopo aver appreso tutti i giochi con la stessa rete neurale, l'agente era in grado di giocarli tutti a livelli "sovrumani" contemporaneamente (ogni volta che veniva presentato in modo casuale con uno dei giochi) o poteva essere buono solo in un gioco alla volta perché passare richiesto un re-apprendimento?


"Dopo aver appreso tutti i giochi con la stessa rete neurale". Questo significa la stessa architettura NN o la stessa architettura e un singolo set di pesi?
Ankur,

@Ankur in realtà non ne sono sicuro - è la mia (limitata) comprensione che hanno usato la stessa architettura e non hanno ripristinato i pesi tra i giochi.
Dion,

Risposte:


2

Il passaggio ha richiesto un nuovo apprendimento.

Inoltre, si noti che :

Usiamo la stessa architettura di rete, algoritmo di apprendimento e impostazioni di iperparametri in tutti e sette i giochi, dimostrando che il nostro approccio è abbastanza robusto da funzionare su una varietà di giochi senza incorporare informazioni specifiche del gioco. Mentre abbiamo valutato i nostri agenti sui giochi reali e non modificati, abbiamo apportato una modifica alla struttura di ricompensa dei giochi solo durante l'allenamento.

e

la rete ha superato tutti i precedenti algoritmi RL su sei dei sette giochi che abbiamo tentato e ha superato un esperto giocatore umano su tre di essi.


1

Il passaggio richiede un nuovo apprendimento, la rete non disponeva di un solo set di pesi che le permetteva di giocare bene tutti i giochi. Ciò è dovuto al catastrofico problema dell'oblio.

Tuttavia, sono stati fatti lavori recenti per superare questo problema:

"Superare l'oblio catastrofico nelle reti neurali", 2016

Documento: https://arxiv.org/pdf/1612.00796v1.pdf

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.