C'è un buon documento di indagine qui .
Come breve riepilogo, oltre ai metodi di apprendimento Q, esiste anche una classe di metodi basati su criteri, in cui invece di apprendere la funzione Q, impari direttamente la migliore politica da utilizzare.π
Questi metodi includono il popolare algoritmo REINFORCE, che è un algoritmo di gradienti politici. TRPO e GAE sono algoritmi di gradienti di politica simili.
Esistono molte altre varianti sui gradienti delle politiche e possono essere combinate con il Q-learning nel quadro dell'attore-critico. L'algoritmo A3C - vantaggio asincrono attore-critico - è un tale algoritmo attore-critico e una base molto solida nell'apprendimento per rinforzo.
Puoi anche cercare la migliore politica imitando gli output da un algoritmo di controllo ottimale, e questo si chiama ricerca guidata delle politiche.π
Oltre al Q-learning e ai gradienti politici, entrambi applicati in impostazioni libere da modelli (nessuno dei due algoritmi mantiene un modello del mondo), esistono anche metodi basati su modelli che stimano lo stato del mondo. Questi modelli sono preziosi perché possono essere molto più efficienti a livello di campionamento.
Gli algoritmi basati su modelli non sono esclusivi con gradienti politici o Q-learning. Un approccio comune è quello di eseguire la stima dello stato / apprendere un modello di dinamica e quindi formare una politica in cima allo stato stimato.
Per quanto riguarda una classificazione, una ripartizione sarebbe
- Apprendimento della funzione Q o V.
- Metodi basati su criteri
- Basato sul modello
I metodi basati su criteri possono essere ulteriormente suddivisi in
- Gradienti politici
- Attore critico
- Ricerca politica