TL; DR.
Il fatto che il tasso di sconto sia limitato a 1 è un trucco matematico per rendere finita una somma infinita. Questo aiuta a dimostrare la convergenza di alcuni algoritmi.
In pratica, il fattore di sconto potrebbe essere usato per modellare il fatto che il decisore non è sicuro se nella prossima istante il mondo (ad es. Ambiente / gioco / processo ) finirà.
Per esempio:
Se il decisore è un robot, il fattore di sconto potrebbe essere la probabilità che il robot venga spento nel prossimo istante (il mondo termina nella terminologia precedente). Questo è il motivo per cui il robot è miope e non ottimizza la ricompensa della somma ma la ricompensa della
somma scontata .
Fattore di sconto inferiore a 1 (in dettaglio)
Per rispondere in modo più preciso, perché il tasso di attualizzazione deve essere inferiore a uno, introdurrò prima i processi decisionali di Markov (MDP).
Le tecniche di apprendimento di rinforzo possono essere utilizzate per risolvere gli MDP. Un MDP fornisce un quadro matematico per modellare le situazioni decisionali in cui i risultati sono in parte casuali e in parte sotto il controllo del decisore. Un MDP è definito tramite uno spazio di stato , uno spazio di azione , una funzione di probabilità di transizione tra stati (condizionata all'azione intrapresa dal decisore) e una funzione di ricompensa.SA
Nella sua impostazione di base, il decisore prende e agisce, e ottiene una ricompensa dall'ambiente, e l'ambiente cambia il suo stato. Quindi il decisore rileva lo stato dell'ambiente, intraprende un'azione, ottiene una ricompensa e così via. Le transizioni di stato sono probabilistiche e dipendono esclusivamente dallo stato attuale e dall'azione intrapresa dal decisore. La ricompensa ottenuta dal decisore dipende dall'azione intrapresa e dallo stato dell'ambiente originale e nuovo.
Una ricompensa si ottiene quando si intraprende un'azione nello stato e l'ambiente / sistema passa allo stato dopo che il decisore ha intrapreso un'azione . Il decisore segue una politica, , che per ogni stato intraprende un'azione . In modo che la politica sia ciò che dice al decisore quali azioni intraprendere in ogni stato. Anche la politica può essere randomizzata, ma per ora non ha importanza.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
L'obiettivo è quello di trovare una politica tale cheπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
dove è il fattore di sconto e .ββ<1
Si noti che il problema di ottimizzazione sopra riportato ha un orizzonte temporale infinito ( ) e l'obiettivo è massimizzare la somma (la ricompensa viene moltiplicata per ). Questo di solito è chiamato un problema MDP con un orizzonte temporale infinito con criteri di ricompensa scontati .T→∞discountedRβn
Il problema si chiama scontato perché . Se non fosse un problema scontato la somma non converrebbe. Tutte le politiche che hanno ottenuto in media una ricompensa positiva in ogni istante si sommerebbero all'infinito. Sarebbe un orizzonte temporale infinito criteri di ricompensa , e non è un buon criterio di ottimizzazione.β<1β=1
Ecco un esempio di giocattolo per mostrarti cosa intendo:
Supponiamo che ci siano solo due possibili azioni e che la funzione di ricompensa sia uguale a se e se (la ricompensa non dipende dallo stato).a=0,1R1a=10a=0
È chiaro che la politica che ottiene più ricompensa è quella di agire sempre e mai . Chiamerò questa politica . Confronterò con un'altra politica che intraprende l'azione con una piccola probabilità , e l'azione altrimenti.a=1a=0π∗π∗π′a=1α<<1a=0
Nell'orizzonte infinito i criteri di ricompensa scontati l'equazione (1) diventa (la somma di una serie geometrica) per la politica mentre per la politica equazione (1) diventa . Dato che , diciamo che è una politica migliore di . In realtà è la politica ottimale.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
Nell'orizzonte infinito i criteri di ricompensa della somma ( ) l'equazione (1) non converge per nessuna delle politiche (somma fino all'infinito). Quindi, considerando che la politica raggiunge premi più elevati rispetto entrambe le politiche sono uguali secondo i questo criterio. Questo è uno dei motivi per cui i criteri di ricompensa della somma dell'orizzonte infinito non sono utili.β=1ππ′
Come ho detto prima, fa convergere la somma nell'equazione (1).β<1
Altri criteri di ottimalità
Esistono altri criteri di ottimalità che non impongono che :β<1
Il caso dei criteri dell'orizzonte finito l'obiettivo è massimizzare la ricompensa scontata fino all'orizzonte temporaleT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
per e finito.β≤1T
In l'infinito orizzonte criteri medi di premiare l'obiettivo è
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Nota finale
A seconda dei criteri di ottimalità si dovrebbe utilizzare un algoritmo diverso per trovare la politica ottimale. Ad esempio, le politiche ottimali dei problemi dell'orizzonte finito dipenderebbero sia dallo stato che dall'istante temporale effettivo. La maggior parte degli algoritmi di apprendimento per rinforzo (come SARSA o Q-learning) convergono nella politica ottimale solo per i criteri di orizzonte infinito della ricompensa scontata (lo stesso accade per gli algoritmi di programmazione dinamica). Per i criteri di ricompensa media non esiste un algoritmo che abbia dimostrato di convergere nella politica ottimale, tuttavia si può usare l'apprendimento R che ha buone prestazioni sebbene non una buona convergenza teorica.