Perché l'apprendimento del rinforzo profondo è instabile?

Nel documento di DeepMind del 2015 sull'apprendimento approfondito del rinforzo, si afferma che "I precedenti tentativi di combinare RL con le reti neurali erano in gran parte falliti a causa dell'apprendimento instabile". Il documento elenca quindi alcune cause di ciò, in base alle correlazioni tra le osservazioni.

Per favore qualcuno potrebbe spiegare cosa significa? È una forma di overfitting, in cui la rete neurale apprende una struttura che è presente in allenamento, ma potrebbe non essere presente ai test? O significa qualcos'altro?

Il documento può essere trovato: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

E la sezione che sto cercando di capire è:

È noto che l'apprendimento per rinforzo è instabile o addirittura divergente quando si utilizza un approssimatore di funzioni non lineari come una rete neurale per rappresentare la funzione valore-azione (noto anche come Q). Questa instabilità ha diverse cause: le correlazioni presenti nella sequenza delle osservazioni, il fatto che piccoli aggiornamenti a Q possano cambiare significativamente la politica e quindi cambiare la distribuzione dei dati e le correlazioni tra i valori di azione e i valori target.

Affrontiamo queste instabilità con una nuova variante di Q-learning, che utilizza due idee chiave. Innanzitutto, abbiamo utilizzato un meccanismo di ispirazione biologica chiamato replay dell'esperienza che si randomizza sui dati, rimuovendo in tal modo le correlazioni nella sequenza di osservazione e uniformando le modifiche nella distribuzione dei dati. In secondo luogo, abbiamo utilizzato un aggiornamento iterativo che regola i valori di azione (Q) verso valori target che vengono aggiornati periodicamente, riducendo così le correlazioni con il target.

— Karnivaurus
fonte

Per essere sicuri di addestrare il proprio agente sui dati non correlati, non è necessario aggiornare la memoria dell'agente in ogni fase, correggere una fase di archiviazione per effettuare una decorrelazione nei dati.

— narjes karmani,

Il problema principale è che, come in molti altri campi, DNN può essere difficile da addestrare. Qui, un problema è la correlazione dei dati di input: se pensi a un videogioco (in realtà li usano per testare i loro algoritmi), puoi immaginare che gli screenshot fatti uno dopo l'altro siano altamente correlati: il gioco si evolve "continuamente". Questo, per le NN, può essere un problema: fare molte iterazioni di discesa del gradiente su input simili e correlati può portare a un loro adattamento e / o cadere in un minimo locale. Questo è il motivo per cui usano l'esperienza di replay: memorizzano una serie di "istantanee" del gioco, quindi le mescolano e le raccolgono alcuni passaggi dopo per fare allenamento. In questo modo, i dati non sono più correlati. Quindi, notano come durante l'allenamento i valori Q (previsti dall'NN) possono cambiare la politica in corso,

— dante
fonte

Per dati "mischiati", intendi esperienze casuali e fuori sequenza campionate in un mini-batch? In che modo ciò corrisponde alla "ricompensa futura scontata", che sembra implicare esperienze in sequenza?

— isobretatel,