Ho letto DeepMind Atari di Google di carta e sto cercando di capire il concetto di "esperienza replay". L'esperienza replay emerge in molti altri documenti di apprendimento per rinforzo (in particolare, il documento AlphaGo), quindi voglio capire come funziona. Di seguito sono riportati alcuni estratti.
Innanzitutto, abbiamo utilizzato un meccanismo di ispirazione biologica chiamato replay dell'esperienza che si randomizza sui dati, rimuovendo in tal modo le correlazioni nella sequenza di osservazione e attenuando le modifiche nella distribuzione dei dati.
Il documento quindi elabora come segue:
Sebbene esistano altri metodi stabili per l'addestramento delle reti neurali nell'impostazione dell'apprendimento per rinforzo, come la Q-iterazione adattata neurale, questi metodi comportano l'addestramento ripetuto di reti de novo centinaia di iterazioni. Di conseguenza, questi metodi, a differenza del nostro algoritmo, sono troppo inefficienti per essere utilizzati con successo con reti neurali di grandi dimensioni. Parametrizziamo una funzione di valore approssimativo usando la rete neurale convoluzionale profonda mostrata in Fig. 1, in cui sono i parametri (cioè i pesi) della rete Q all'iterazione . Per eseguire la riproduzione dell'esperienza, memorizziamo le esperienze dell'agente ad ogni passo temporale in un set di dati . Durante l'apprendimento, applichiamo gli aggiornamenti Q-learning su campioni (o mini-batch) di esperienza, disegnato in modo uniforme a caso dal pool di campioni memorizzati. L'aggiornamento Q-learning all'iterazione utilizza la seguente funzione di perdita:
Che cos'è il replay dell'esperienza e quali sono i suoi vantaggi, in termini di laici?