Quando scegliere SARSA vs. Q Learning

SARSA e Q Learning sono entrambi algoritmi di apprendimento per rinforzo che funzionano in modo simile. La differenza più evidente è che SARSA è in politica mentre Q Learning è fuori politica. Le regole di aggiornamento sono le seguenti:

Q Learning:

Q (S_{t}, {un'}_{t}) \leftarrow Q (S_{t}, {un'}_{t}) + α [r_{t + 1} + γ max_{{un'}^{'}} Q (S_{t + 1}, {un'}^{'}) - Q (S_{t}, {un'}_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)]$

SARSA:

Q (S_{t}, {un'}_{t}) \leftarrow Q (S_{t}, {un'}_{t}) + α [r_{t + 1} + γ Q (S_{t + 1}, {un'}_{t + 1}) - Q (S_{t}, {un'}_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)]$

dove $s_t,\,a_t$ e $r_t$ sono stato, azione e ricompensa al momento la fase $t$ e $\gamma$ è un fattore di sconto.

Sembrano per lo più lo stesso, tranne che in SARSA intraprendiamo azioni reali e in Q Learning intraprendiamo l'azione con la massima ricompensa.

Ci sono delle impostazioni teoriche o pratiche in cui l'una dovrebbe preferire l'una all'altra? Vedo che prendere il massimo in Q Learning può essere costoso e ancora di più in spazi di azione continua. Ma c'è qualcos'altro?

reinforcement-learning

— hh32
fonte

Negli spazi di azione continui, i metodi di ricerca di politiche dirette come vari metodi a gradiente di politica sono comunemente usati poiché, come hai capito, mantenere e valutare una funzione a valore discreto per uno spazio di azione continua non è pratico, specialmente quando lo spazio di azione ha molte dimensioni (a causa della maledizione della dimensionalità ).

— Ciao Arrivederci

Sembrano per lo più lo stesso, tranne che in SARSA intraprendiamo azioni reali e in Q Learning intraprendiamo l'azione con la massima ricompensa.

In entrambi i casi, "prendi" l'effettiva singola azione generata successiva. Nell'apprendimento Q, aggiorni la stima dalla stima massima delle possibili azioni successive, indipendentemente dall'azione che hai intrapreso. Mentre in SARSA, aggiorni le stime in base e fai la stessa azione. $a_{t+1}$

Questo è probabilmente ciò che intendevi per "prendere" nella domanda, ma in letteratura, intraprendere un'azione significa che diventa il valore di eg e influenza , . $a_{t}$ $r_{t+1}$ $s_{t+1}$

Ci sono delle impostazioni teoriche o pratiche in cui l'una dovrebbe preferire l'una all'altra?

Il Q-learning presenta i seguenti vantaggi e svantaggi rispetto alla SARSA:

Q-learning apprende direttamente la politica ottimale, mentre SARSA impara una politica quasi ottimale durante l'esplorazione. Se vuoi imparare una politica ottimale usando SARSA, dovrai decidere una strategia per decadere nella scelta dell'azione -greedy, che potrebbe diventare un iperparametro complicato da sintonizzare. $\epsilon$ $\epsilon$
Il Q-learning (e l'apprendimento off-policy in generale) presenta una varianza per campione più elevata rispetto alla SARSA e può pertanto presentare problemi di convergenza. Ciò si presenta come un problema durante l'addestramento delle reti neurali tramite Q-learning.
La SARSA si avvicinerà alla convergenza consentendo possibili penalità dalle mosse esplorative, mentre il Q-learning le ignorerà. Ciò rende la SARSA più conservativa - se esiste il rischio di una grande ricompensa negativa vicino al percorso ottimale, l'apprendimento Q tenderà ad attivare quella ricompensa durante l'esplorazione, mentre SARSA tenderà a evitare un pericoloso percorso ottimale e imparerà lentamente a usarlo quando i parametri di esplorazione sono ridotti. Il classico problema del giocattolo che dimostra questo effetto si chiama cliff walking .

In pratica, l'ultimo punto può fare una grande differenza se gli errori sono costosi, ad esempio quando si sta addestrando un robot non nella simulazione, ma nel mondo reale. Potresti preferire un algoritmo di apprendimento più conservativo che eviti i rischi elevati, se ci fosse tempo reale e denaro in gioco se il robot fosse danneggiato.

Se il tuo obiettivo è formare un agente ottimale nella simulazione o in un ambiente a basso costo e con iterazione rapida, Q-learning è una buona scelta, grazie al primo punto (apprendimento diretto della politica ottimale). Se il tuo agente impara online e ti preoccupi delle ricompense ottenute durante l'apprendimento , SARSA potrebbe essere una scelta migliore.

— Neil Slater
fonte

Domanda di follow

— Muppet