Qual è la differenza tra apprendimento off-policy e on-policy?

79

Il sito Web di intelligenza artificiale definisce l'apprendimento off-policy e on-policy come segue:

"Uno studente fuori dalla politica impara il valore della politica ottimale indipendentemente dalle azioni dell'agente. Q-learning è uno studente fuori dalla politica. Uno studente nella politica apprende il valore della politica eseguita dall'agente, compresi i passaggi di esplorazione ".

Vorrei chiedere il vostro chiarimento in merito, perché non sembrano fare alcuna differenza per me. Entrambe le definizioni sembrano identiche. Quello che ho effettivamente capito sono l'apprendimento senza modelli e basato su modelli, e non so se hanno qualcosa a che fare con quelli in questione.

In che modo è possibile apprendere la politica ottimale indipendentemente dalle azioni dell'agente? La politica non viene appresa quando l'agente esegue le azioni?

machine-learning reinforcement-learning artificial-intelligence

— CGO
fonte

1

Ho aggiunto un commento a stackoverflow.com/questions/6848828/… , la parte TL; NR potrebbe essere utile anche per la comprensione.

— Zyxue,

ecco una buona spiegazione nb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

Vorrei anche aggiungere che esiste una variante fuori politica di SARSA. Questo documento ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) esaminerà la politica di attivazione e disattivazione nell'introduzione, quindi spiegherà la sarsa attesa. Cerca anche i gradienti politici previsti (EPG) per trovare una teoria più generale che combini i due tipi.

— Josh Albert,

95

Prima di tutto, non c'è motivo per cui un agente debba compiere l' azione avida ; Gli agenti possono esplorare o possono seguire le opzioni . Questo non è ciò che separa l'apprendimento dalla politica dall'apprendimento fuori dalla politica.

Il motivo per cui il Q-learning è off-policy è che aggiorna i suoi valori Q usando il valore Q dello stato successivo e l' azione avida . In altre parole, stima il rendimento (premio futuro scontato totale) per le coppie stato-azione ipotizzando che sia stata seguita una politica avida, nonostante non segua una politica avida. $s'$ $a'$

La ragione per cui SARSA è in politica è che aggiorna i suoi valori Q usando il valore Q dello stato successivo e l' azione della politica attuale . Stima il ritorno per le coppie stato-azione ipotizzando che la politica attuale continui a essere seguita. $s'$ $a''$

La distinzione scompare se la politica attuale è una politica avida. Tuttavia, un tale agente non sarebbe buono dal momento che non esplora mai.

Hai consultato il libro disponibile online gratuitamente? Richard S. Sutton e Andrew G. Barto. Apprendimento per rinforzo: un'introduzione. Seconda edizione, MIT Press, Cambridge, MA, 2018.

— Neil G
fonte

8

bella spiegazione! Il tuo esempio di Q-learning è meglio formulato da quello nel libro di Sutton, che dice: " la funzione valore-azione appresa, Q, approssima direttamente Q *, la funzione valore-azione ottimale, indipendentemente dalla politica seguita. Ciò semplifica notevolmente analisi dell'algoritmo e abilitazione delle prime prove di convergenza. La politica ha ancora un effetto in quanto determina quali coppie stato-azione sono visitate e aggiornate. "

— Ciprian Tomoiagă,

3

In generale, non trovo affatto leggibile Sutton e Barto. Trovo che le spiegazioni che offrono non siano molto comprensibili. Non sono sicuro del motivo per cui il loro libro viene raccomandato dappertutto

— SN

@SN Per molti studenti dell'apprendimento per rinforzo, Sutton e Barto è il primo libro che hanno letto.

— Neil G

3

@JakubArnold il libro originale di Sutton & Barto è del 1998 e non tratta l'apprendimento approfondito del rinforzo. La seconda edizione menziona solo cose come AlphaGo, ma il focus del libro è su approcci più classici. Se vuoi più risorse RL, dai un'occhiata a questo elenco . Suggerisco i video di David Silver e il libro di Puterman in quanto sono più accessibili. Per altro materiale teorico, raccomando i libri di Bertsekas. Dai un'occhiata al sito web Spinning Up per gli algoritmi DRL e i collegamenti ai documenti originali.

— Douglas De Rizzo Meneghetti,

1

@AlbertChen "Quindi, in questo caso, dipende o meno dall'esplorazione": No, perché entrambi gli algoritmi esplorano. La differenza è come Q viene aggiornato.

— Neil G,

13

I metodi su politica stimano il valore di una politica mentre la utilizzano per il controllo.

Nei metodi off-policy , la politica utilizzata per generare comportamenti, chiamata politica comportamentale , potrebbe non essere correlata alla politica valutata e migliorata, chiamata politica di stima .

Un vantaggio di questa separazione è che la politica di stima può essere deterministica (ad esempio golosa), mentre la politica di comportamento può continuare a campionare tutte le possibili azioni.

Per ulteriori dettagli, vedere le sezioni 5.4 e 5.6 del libro Reinforcement Learning: An Introduction di Barto and Sutton, prima edizione.

— nbro
fonte

7

La differenza tra i metodi Off-policy e On-policy è che con il primo non è necessario seguire alcuna politica specifica, il proprio agente potrebbe persino comportarsi in modo casuale e, nonostante ciò, i metodi fuori politica possono comunque trovare la politica ottimale. D'altro canto, i metodi basati sulla politica dipendono dalla politica utilizzata. Nel caso di Q-Learning, che è fuori dalla politica, troverà la politica ottimale indipendente dalla politica utilizzata durante l'esplorazione, tuttavia questo è vero solo quando visiti i diversi stati abbastanza volte. Puoi trovare nel documento originale di Watkins la prova reale che mostra questa proprietà molto bella di Q-Learning. Vi è tuttavia un compromesso e cioè i metodi fuori politica tendono ad essere più lenti rispetto ai metodi interni. Qui un link con altri interessanti riassunti delle proprietà di entrambi i tipi di metodi

— Juli
fonte

1

I metodi off-policy non sono solo più lenti, ma possono essere instabili se combinati con il bootstrap (ovvero come il Q-learning costruisce stime l'uno dall'altro) e approssimatori di funzioni (ad es. Reti neurali).

— Neil Slater

7

Prima di tutto, cosa significa effettivamente politica (indicata con )? La politica specifica un'azione , che viene eseguita in uno stato (o più precisamente, è una probabilità, che un'azione venga eseguita in uno stato ). $\pi$
$a$ $s$ $\pi$ $a$ $s$

In secondo luogo, quali tipi di apprendimento abbiamo?
1. Valutare la funzione : prevedere la somma dei premi scontati futuri, dove è un'azione e è uno stato. 2. Trova (in realtà, ), che offre una ricompensa massima. $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

Torna alla domanda originale. L'apprendimento on-policy e off-policy è legato solo al primo compito: valutare . $Q(s,a)$

La differenza è questa:
In su-politica di apprendimento della la funzione si apprende da azioni, abbiamo preso usando la nostra attuale politica . Nell'apprendimento off-policy la funzione viene appresa da diverse azioni (ad esempio azioni casuali). Non abbiamo nemmeno bisogno di una politica! $Q(s,a)$ $\pi$
$Q(s,a)$

Questa è la funzione di aggiornamento per l' algoritmo SARSA on-policy : , dove è l'azione, che è stata eseguita in base alla politica . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

Confrontalo con la funzione di aggiornamento per l' algoritmo Q-learning off-policy : , dove sono tutte le azioni, che sono state sondate nello stato . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Dmitry Mottl
fonte

1

Dal libro di Sutton: "L'approccio sulla politica nella sezione precedente è in realtà un compromesso: apprende i valori di azione non per la politica ottimale, ma per una politica quasi ottimale che esplora ancora. Un approccio più diretto è quello di utilizzare due politiche , uno che viene appreso e che diventa la politica ottimale e uno che è più esplorativo e viene utilizzato per generare comportamento. La politica che viene appresa viene chiamata politica di destinazione e la politica utilizzata per generare comportamento viene chiamata politica di comportamento. In questo caso diciamo che l'apprendimento proviene dai dati "o" la politica target e che il processo complessivo è definito apprendimento o-policy ".

— Oliver Goldstein
fonte

se segui questa descrizione, non è facile dire perché Q-learning è fuori politica

— Albert Chen il