La politica ottimale è sempre stocastica (ovvero una mappa dagli stati a una distribuzione di probabilità sulle azioni) se anche l'ambiente è stocastico?
No.
Una politica ottimale è generalmente deterministica a meno che:
Mancano informazioni importanti sullo stato (un POMDP). Ad esempio, in una mappa in cui l'agente non è autorizzato a conoscere la sua posizione esatta o ricordare gli stati precedenti e lo stato che viene fornito non è sufficiente per chiarire le diverse posizioni. Se l'obiettivo è raggiungere una posizione finale specifica, la politica ottimale può includere alcune mosse casuali al fine di evitare di rimanere bloccati. Si noti che l'ambiente in questo caso potrebbe essere deterministico (dal punto di vista di qualcuno che può vedere l'intero stato), ma portare comunque a richiedere una politica stocastica per risolverlo.
Esiste una sorta di scenario di teoria dei giochi minimax, in cui una politica deterministica può essere punita dall'ambiente o da un altro agente. Pensa alle forbici / alla carta / alla pietra o al dilemma del prigioniero.
Intuitivamente, se l'ambiente è deterministico (ovvero se l'agente si trova in uno stato 𝑠 e agisce 𝑎, allora lo stato successivo 𝑠 ′ è sempre lo stesso, non importa quale fase temporale), allora anche la politica ottimale dovrebbe essere deterministica (vale a dire, dovrebbe essere una mappa dagli stati alle azioni e non ad una distribuzione di probabilità sulle azioni).
Sembra ragionevole, ma puoi approfondire questa intuizione con qualsiasi metodo basato su una funzione value:
Se hai trovato una funzione di valore ottimale, agire in modo avido rispetto ad essa è la politica ottimale.
L'affermazione di cui sopra è solo una riaffermazione del linguaggio naturale dell'equazione di ottimalità di Bellman:
v*( s ) = maxun'Σr , s'p ( r , s'| s,a)(r+γv*( s') )
cioè i valori ottimali si ottengono quando si sceglie sempre l'azione che massimizza la ricompensa più il valore scontato del passaggio successivo. Il maxun' operazione è deterministico (se necessario si può rompere i legami per il valore massimo in modo deterministico con ad esempio un elenco ordinato di azioni).
Pertanto, qualsiasi ambiente che può essere modellato da un MDP e risolto con un metodo basato sul valore (ad es. Iterazione del valore, Q-learning) ha una politica ottimale che è deterministica.
È possibile in un ambiente tale che la soluzione ottimale potrebbe non essere affatto stocastica (cioè se si aggiunge casualità alla politica ottimale deterministica, la politica peggiorerà strettamente). Tuttavia, quando vi sono legami per il valore massimo per una o più azioni in uno o più stati, esistono più politiche ottimali e deterministiche equivalenti multiple. Puoi costruire una politica stocastica che li mescoli in qualsiasi combinazione e sarà anche ottimale.