Risposte:
Alle buone risposte qui, aggiungerei
Una breve panoramica di RL : concetti più essenziali in un unico posto.
Un'altra breve panoramica , in formato presentazione.
Ben Recht's Un tour di RL di outsider è piuttosto completo e accessibile.
Le equazioni di Bellman : centrali per l'intera teoria di RL.
Gradienti politici spiegati da Andrej Karpathy (menzionato in altre risposte come "pong from pixels", questo è il link).
Questi a malapena graffiano la superficie di RL, ma dovrebbero iniziare.
C'è una playlist di Youtube (nel canale DeepMind ) il cui titolo è Introduzione all'apprendimento per rinforzo , che è un corso (di 10 lezioni) sull'apprendimento per rinforzo di David Silver .
Una persona che ha seguito e completato il corso ha scritto (come commento su Youtube):
Corso eccellente Esempi abbastanza concreti, sufficienti per fornire una buona intuizione, e insegnati da qualcuno che è all'avanguardia nel campo dell'applicazione di RL ai giochi.
Prima di questo chiediti se vuoi davvero imparare "l'apprendimento per rinforzo". Sebbene ci sia molto clamore sull'apprendimento per rinforzo, l'applicabilità nel mondo reale dell'apprendimento per rinforzo è quasi inesistente. La maggior parte dei corsi online ti insegna molto poco sull'apprendimento automatico, quindi è molto meglio approfondire, piuttosto che procedere verso l'apprendimento di rinforzo. L'apprendimento di rinforzo dell'apprendimento è in qualche modo diverso dall'apprendimento di tecniche di apprendimento non supervisionate / supervisionate.
Detto questo, il modo più veloce per ottenere una buona conoscenza dell'apprendimento per rinforzo è il seguente:
Leggi il post sul blog di Andrej Karpathy "Pong from Pixels".
Guarda le lezioni di Deep RL Bootcamp .
Per comprendere la matematica alla base di queste tecniche, fare riferimento a Sutton and Barto's Reinforcement Learning: An Introduction .
Leggi i documenti pertinenti (gioco ecc.).
PS: assicurati di avere una conoscenza approfondita delle basi delle reti neurali, poiché la maggior parte degli articoli attuali in RL prevede l'uso di DNN in un modo o nell'altro come approssimatori.
Di recente ho visto un corso di Microsoft su edx. Si chiama "Apprendimento di rinforzo spiegato".
Ecco il link: https://www.edx.org/course/reinforcement-learning-explained-0 Questo non è abbastanza completo ma almeno fornisce un buon punto di partenza.
Direi che questo post è un must per leggere:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo è stato addestrato con l'apprendimento per rinforzo.