Ecco alcuni buoni riferimenti sull'apprendimento per rinforzo:
Classico
Sutton RS, Barto AG. Apprendimento per rinforzo: un'introduzione. Cambridge, Massachussets: un libro di Bradford; 1998. 322 p.
La bozza per la seconda edizione è disponibile gratuitamente: http://incompleteideas.net/book/the-book-2nd.html
Russell / Norvig Capitolo 21:
Russell SJ, Norvig P, Davis E. Intelligenza artificiale: un approccio moderno. Upper Saddle River, NJ: Prentice Hall; 2010.
Più tecnico
Szepesvári C. Algorithms per l'apprendimento per rinforzo. Lezioni di sintesi su intelligenza artificiale e machine learning. 2010; 4 (1): 1-103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Programmazione dinamica e controllo ottimale. 4a edizione. Belmont, Mass .: Athena Scientific; 2007. 1270 p.
Il capitolo 6, vol 2 è disponibile gratuitamente: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Per sviluppi più recenti
Wiering M, van Otterlo M, editori. Insegnamento rafforzativo. Berlino, Heidelberg: Springer Berlin Heidelberg; 2012 Disponibile da: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Il processo decisionale sotto incertezza: teoria e applicazione. 1 edizione. Cambridge, Massachusetts: The MIT Press; 2015. 352 p.
Apprendimento di rinforzo multi-agente
Buşoniu L, Babuška R, Schutter BD. Apprendimento di rinforzo multi-agente: una panoramica. In: Srinivasan D, Jain LC, editori. Innovazioni nei sistemi e nelle applicazioni multi-agente - 1. Springer Berlin Heidelberg; 2010 p. 183-221. Disponibile da: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Apprendimento automatico multi-agente: un approccio di rinforzo. Hoboken, New Jersey: Wiley; Il 2014.
Video / Corsi
Suggerirei anche il corso David Silver su YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa