L'apprendimento del gioco DQN Atari di DeepMind è stato simultaneo?

9

DeepMind afferma che la loro profonda rete Q (DQN) è stata in grado di adattare continuamente il suo comportamento mentre imparava a giocare con 49 giochi Atari.

Dopo aver appreso tutti i giochi con la stessa rete neurale, l'agente era in grado di giocarli tutti a livelli "sovrumani" contemporaneamente (ogni volta che veniva presentato in modo casuale con uno dei giochi) o poteva essere buono solo in un gioco alla volta perché passare richiesto un re-apprendimento?

neural-networks deep-learning deepmind

— Dion
fonte

"Dopo aver appreso tutti i giochi con la stessa rete neurale". Questo significa la stessa architettura NN o la stessa architettura e un singolo set di pesi?

— Ankur,

@Ankur in realtà non ne sono sicuro - è la mia (limitata) comprensione che hanno usato la stessa architettura e non hanno ripristinato i pesi tra i giochi.

— Dion,

2

Il passaggio ha richiesto un nuovo apprendimento.

Inoltre, si noti che :

Usiamo la stessa architettura di rete, algoritmo di apprendimento e impostazioni di iperparametri in tutti e sette i giochi, dimostrando che il nostro approccio è abbastanza robusto da funzionare su una varietà di giochi senza incorporare informazioni specifiche del gioco. Mentre abbiamo valutato i nostri agenti sui giochi reali e non modificati, abbiamo apportato una modifica alla struttura di ricompensa dei giochi solo durante l'allenamento.

e

la rete ha superato tutti i precedenti algoritmi RL su sei dei sette giochi che abbiamo tentato e ha superato un esperto giocatore umano su tre di essi.

— Franck Dernoncourt
fonte

1

Il passaggio richiede un nuovo apprendimento, la rete non disponeva di un solo set di pesi che le permetteva di giocare bene tutti i giochi. Ciò è dovuto al catastrofico problema dell'oblio.

Tuttavia, sono stati fatti lavori recenti per superare questo problema:

"Superare l'oblio catastrofico nelle reti neurali", 2016

Documento: https://arxiv.org/pdf/1612.00796v1.pdf

— nulla
fonte