L'algoritmo tabellare Q-learning è garantito per trovare la funzione ottimale , , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento
dove indica la velocità di apprendimento utilizzata durante l'aggiornamento del valore associato allo stato e all'azione al momento della fase , dove è considerato vero, per tutti gli stati e le azioni .
Apparentemente, dato che , affinché le due condizioni siano vere, tutte le coppie stato-azione devono essere visitate all'infinito spesso: questo è anche affermato nel libro Apprendimento di rinforzo: un'introduzione , a parte il fatto che questo dovrebbe essere ampiamente conosciuto ed è la logica dietro l'utilizzo della politiche -greedy (o politiche simili) durante l'allenamento.
Una prova completa che mostra che -learning trova la funzione ottimale può essere trovata nel documento Convergence of Q-learning: A Simple Proof (di Francisco S. Melo). Usa concetti come la mappatura della contrazione per definire la funzione ottimale (vedi anche Cos'è l'operatore Bellman nell'apprendimento del rinforzo? ), Che è un punto fisso di questo operatore di contrazione. Usa anche un teorema (n. 2) per quanto riguarda il processo casuale che converge a , dati alcuni presupposti. (La prova potrebbe non essere facile da seguire se non sei un ragazzo di matematica.)
Se una rete neurale viene utilizzata per rappresentare la funzione , le garanzie di convergenza di -learning sono ancora valide? Perché Q-learning converge (o no) quando si usa l'approssimazione delle funzioni? Esiste una prova formale di tale non-convergenza dell'apprendimento usando l'approssimazione delle funzioni?
Sto cercando diversi tipi di risposte, da quelle che danno solo l'intuizione alla base della non convergenza del learning quando si usa l'approssimazione delle funzioni a quelle che forniscono una prova formale (o un collegamento a un documento con una prova formale).