Nel documento di DeepMind del 2015 sull'apprendimento approfondito del rinforzo, si afferma che "I precedenti tentativi di combinare RL con le reti neurali erano in gran parte falliti a causa dell'apprendimento instabile". Il documento elenca quindi alcune cause di ciò, in base alle correlazioni tra le osservazioni.
Per favore qualcuno potrebbe spiegare cosa significa? È una forma di overfitting, in cui la rete neurale apprende una struttura che è presente in allenamento, ma potrebbe non essere presente ai test? O significa qualcos'altro?
Il documento può essere trovato: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
E la sezione che sto cercando di capire è:
È noto che l'apprendimento per rinforzo è instabile o addirittura divergente quando si utilizza un approssimatore di funzioni non lineari come una rete neurale per rappresentare la funzione valore-azione (noto anche come Q). Questa instabilità ha diverse cause: le correlazioni presenti nella sequenza delle osservazioni, il fatto che piccoli aggiornamenti a Q possano cambiare significativamente la politica e quindi cambiare la distribuzione dei dati e le correlazioni tra i valori di azione e i valori target.
Affrontiamo queste instabilità con una nuova variante di Q-learning, che utilizza due idee chiave. Innanzitutto, abbiamo utilizzato un meccanismo di ispirazione biologica chiamato replay dell'esperienza che si randomizza sui dati, rimuovendo in tal modo le correlazioni nella sequenza di osservazione e uniformando le modifiche nella distribuzione dei dati. In secondo luogo, abbiamo utilizzato un aggiornamento iterativo che regola i valori di azione (Q) verso valori target che vengono aggiornati periodicamente, riducendo così le correlazioni con il target.