Risposte:
Il bootstrap in RL può essere letto come "utilizzando uno o più valori stimati nella fase di aggiornamento per lo stesso tipo di valore stimato".
Nella maggior parte delle regole di aggiornamento TD, vedrai qualcosa di simile a questo aggiornamento SARSA (0):
Il valore è una stima per il valore reale di e chiamato anche obiettivo TD. È un metodo bootstrap perché in parte stiamo usando un valore Q per aggiornare un altro valore Q. Esiste una piccola quantità di dati reali osservati sotto forma di , la ricompensa immediata per il passaggio e anche nella transizione di stato .
Contrasto con Monte Carlo in cui la regola di aggiornamento equivalente potrebbe essere:
Laddove era la ricompensa totale scontata al momento , supponendo in questo aggiornamento, che è iniziata nello stato , ha intrapreso un'azione , quindi ha seguito l'attuale politica fino alla fine dell'episodio. Tecnicamente, dove è la fase temporale per la ricompensa terminale e lo stato. In particolare, questo valore target non utilizza affatto alcuna stima esistente (da altri valori Q), ma utilizza solo una serie di osservazioni (ovvero premi) dall'ambiente. Come tale, è garantito che sia una stima imparziale del valore reale di , dal momento che è tecnicamente un campione di .
Il principale svantaggio del bootstrap è che è distorto verso qualunque sia il tuo valore iniziale di (o ). Molto probabilmente sono sbagliati e il sistema di aggiornamento può essere instabile nel suo insieme a causa di troppi riferimenti personali e di dati reali insufficienti - questo è un problema con l'apprendimento off-policy (ad esempio Q-learning) che utilizza reti neurali.
Senza il bootstrap, usando traiettorie più lunghe, c'è spesso invece una varianza elevata , che, in pratica, significa che hai bisogno di più campioni prima che le stime convergano. Quindi, nonostante i problemi con il bootstrap, se può essere fatto funzionare, può imparare molto più velocemente ed è spesso preferito rispetto agli approcci Monte Carlo.
È possibile scendere a compromessi tra i metodi basati su campioni Monte Carlo e i metodi TD a passaggio singolo che eseguono il bootstrap utilizzando un mix di risultati provenienti da traiettorie di diversa lunghezza. Questo è chiamato apprendimento TD ( ) e ci sono una varietà di metodi specifici come SARSA ( ) o Q ( ).