Il sito Web di intelligenza artificiale definisce l'apprendimento off-policy e on-policy come segue:
"Uno studente fuori dalla politica impara il valore della politica ottimale indipendentemente dalle azioni dell'agente. Q-learning è uno studente fuori dalla politica. Uno studente nella politica apprende il valore della politica eseguita dall'agente, compresi i passaggi di esplorazione ".
Vorrei chiedere il vostro chiarimento in merito, perché non sembrano fare alcuna differenza per me. Entrambe le definizioni sembrano identiche. Quello che ho effettivamente capito sono l'apprendimento senza modelli e basato su modelli, e non so se hanno qualcosa a che fare con quelli in questione.
In che modo è possibile apprendere la politica ottimale indipendentemente dalle azioni dell'agente? La politica non viene appresa quando l'agente esegue le azioni?