Panoramica sugli algoritmi di apprendimento del rinforzo


9

Attualmente sto cercando una panoramica sugli algoritmi di apprendimento del rinforzo e forse una loro classificazione. Ma accanto a Sarsa e Q-Learning + Deep Q-Learning non riesco davvero a trovare alcun algoritmo popolare.

Wikipedia mi offre una panoramica sui diversi metodi generali di apprendimento del rinforzo, ma non vi è alcun riferimento a diversi algoritmi che implementano questi metodi.

Ma forse sto confondendo approcci e algoritmi generali e fondamentalmente non esiste una vera classificazione in questo campo, come in altri campi dell'apprendimento automatico. Qualcuno può darmi una breve introduzione o solo un riferimento in cui potrei iniziare a leggere i diversi approcci, le differenze tra loro e gli algoritmi di esempio che implementano questo approccio?


Risposte:


14

C'è un buon documento di indagine qui .

Come breve riepilogo, oltre ai metodi di apprendimento Q, esiste anche una classe di metodi basati su criteri, in cui invece di apprendere la funzione Q, impari direttamente la migliore politica da utilizzare.π

Questi metodi includono il popolare algoritmo REINFORCE, che è un algoritmo di gradienti politici. TRPO e GAE sono algoritmi di gradienti di politica simili.

Esistono molte altre varianti sui gradienti delle politiche e possono essere combinate con il Q-learning nel quadro dell'attore-critico. L'algoritmo A3C - vantaggio asincrono attore-critico - è un tale algoritmo attore-critico e una base molto solida nell'apprendimento per rinforzo.

Puoi anche cercare la migliore politica imitando gli output da un algoritmo di controllo ottimale, e questo si chiama ricerca guidata delle politiche.π

Oltre al Q-learning e ai gradienti politici, entrambi applicati in impostazioni libere da modelli (nessuno dei due algoritmi mantiene un modello del mondo), esistono anche metodi basati su modelli che stimano lo stato del mondo. Questi modelli sono preziosi perché possono essere molto più efficienti a livello di campionamento.

Gli algoritmi basati su modelli non sono esclusivi con gradienti politici o Q-learning. Un approccio comune è quello di eseguire la stima dello stato / apprendere un modello di dinamica e quindi formare una politica in cima allo stato stimato.

Per quanto riguarda una classificazione, una ripartizione sarebbe

  • Apprendimento della funzione Q o V.
  • Metodi basati su criteri
  • Basato sul modello

I metodi basati su criteri possono essere ulteriormente suddivisi in

  • Gradienti politici
  • Attore critico
  • Ricerca politica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.