SARSA e Q Learning sono entrambi algoritmi di apprendimento per rinforzo che funzionano in modo simile. La differenza più evidente è che SARSA è in politica mentre Q Learning è fuori politica. Le regole di aggiornamento sono le seguenti:
Q Learning:
SARSA:
dove e sono stato, azione e ricompensa al momento la fase e è un fattore di sconto.
Sembrano per lo più lo stesso, tranne che in SARSA intraprendiamo azioni reali e in Q Learning intraprendiamo l'azione con la massima ricompensa.
Ci sono delle impostazioni teoriche o pratiche in cui l'una dovrebbe preferire l'una all'altra? Vedo che prendere il massimo in Q Learning può essere costoso e ancora di più in spazi di azione continua. Ma c'è qualcos'altro?