La politica ottimale è sempre stocastica se anche l'ambiente è stocastico?


10

La politica ottimale è sempre stocastica (ovvero una mappa dagli stati a una distribuzione di probabilità sulle azioni) se anche l'ambiente è stocastico?

Intuitivamente, se l'ambiente è deterministico (cioè, se l'agente è in uno stato S e interviene un' , allora lo stato successivo S' è sempre la stessa, senza che passo temporale materia), allora la politica ottimale dovrebbe anche essere deterministico (vale a dire, dovrebbe essere una mappa dagli stati alle azioni e non ad una distribuzione di probabilità sulle azioni).


Ecco una domanda correlata: mathoverflow.net/q/44677 .
nbro

Risposte:


6

La politica ottimale è sempre stocastica (ovvero una mappa dagli stati a una distribuzione di probabilità sulle azioni) se anche l'ambiente è stocastico?

No.

Una politica ottimale è generalmente deterministica a meno che:

  • Mancano informazioni importanti sullo stato (un POMDP). Ad esempio, in una mappa in cui l'agente non è autorizzato a conoscere la sua posizione esatta o ricordare gli stati precedenti e lo stato che viene fornito non è sufficiente per chiarire le diverse posizioni. Se l'obiettivo è raggiungere una posizione finale specifica, la politica ottimale può includere alcune mosse casuali al fine di evitare di rimanere bloccati. Si noti che l'ambiente in questo caso potrebbe essere deterministico (dal punto di vista di qualcuno che può vedere l'intero stato), ma portare comunque a richiedere una politica stocastica per risolverlo.

  • Esiste una sorta di scenario di teoria dei giochi minimax, in cui una politica deterministica può essere punita dall'ambiente o da un altro agente. Pensa alle forbici / alla carta / alla pietra o al dilemma del prigioniero.

Intuitivamente, se l'ambiente è deterministico (ovvero se l'agente si trova in uno stato 𝑠 e agisce 𝑎, allora lo stato successivo 𝑠 ′ è sempre lo stesso, non importa quale fase temporale), allora anche la politica ottimale dovrebbe essere deterministica (vale a dire, dovrebbe essere una mappa dagli stati alle azioni e non ad una distribuzione di probabilità sulle azioni).

Sembra ragionevole, ma puoi approfondire questa intuizione con qualsiasi metodo basato su una funzione value:

Se hai trovato una funzione di valore ottimale, agire in modo avido rispetto ad essa è la politica ottimale.

L'affermazione di cui sopra è solo una riaffermazione del linguaggio naturale dell'equazione di ottimalità di Bellman:

v*(S)=maxun'Σr,S'p(r,S'|S,un')(r+γv*(S'))

cioè i valori ottimali si ottengono quando si sceglie sempre l'azione che massimizza la ricompensa più il valore scontato del passaggio successivo. Il maxun' operazione è deterministico (se necessario si può rompere i legami per il valore massimo in modo deterministico con ad esempio un elenco ordinato di azioni).

Pertanto, qualsiasi ambiente che può essere modellato da un MDP e risolto con un metodo basato sul valore (ad es. Iterazione del valore, Q-learning) ha una politica ottimale che è deterministica.

È possibile in un ambiente tale che la soluzione ottimale potrebbe non essere affatto stocastica (cioè se si aggiunge casualità alla politica ottimale deterministica, la politica peggiorerà strettamente). Tuttavia, quando vi sono legami per il valore massimo per una o più azioni in uno o più stati, esistono più politiche ottimali e deterministiche equivalenti multiple. Puoi costruire una politica stocastica che li mescoli in qualsiasi combinazione e sarà anche ottimale.


1
"È possibile in un ambiente tale che nessuna politica stocastica sia ottimale", intendi una politica deterministica?
nbro

2
@nbro: No, intendo davvero che non esiste una politica stocastica ottimale. Questo è comunemente il caso. Pensa ad esempio a un semplice risolutore di labirinti. Se la soluzione deterministica ottimale è un singolo percorso dall'inizio alla fine, l'aggiunta di qualsiasi casualità peggiorerà la politica. Questo non cambia se l'ambiente aggiunge rumori casuali (ad es. Mosse a volte fallite)
Neil Slater

2
Ora capisco. Stai dicendo che c'è sempre una politica deterministica, quindi una politica stocastica e derivata dalla politica deterministica sarà probabilmente peggiore della politica deterministica ottimale.
nbro

1
@nbro: Sì, tutto qui.
Neil Slater,

5

Direi di no.

npioion

pio

Ovviamente, se ti trovi in ​​un ambiente in cui giochi contro un altro agente (un'impostazione della teoria dei giochi), la tua politica ottimale sarà sicuramente stocastica (pensa ad un gioco di poker, per esempio).


piopioio

2
@nbro: è certo nelle aspettative, che è ciò che massimizza la politica ottimale. I criteri non tentano di indovinare i generatori di numeri casuali, che si presume impossibile (se fosse possibile a causa di uno stato interno del sistema, è necessario aggiungere tale stato interno al modello o trattarlo come un POMDP)
Neil Slater,

@NeilSlater Ok. Ma la conclusione cambierebbe se il tempo è finito? Se hai un tempo limitato per giocare, allora l'aspettativa, immagino, deve anche considerare il tempo disponibile per giocare.
nbro

2
@nbro: questo può cambiare le tue decisioni, ma non riguarda davvero la politica ottimale. La politica ottimale per le armi da bandito è ancora deterministica, sull'uso del braccio migliore, ma non lo sai. Si tratta di esplorazione vs sfruttamento. Si potrebbe frase che ad avere "una politica ottimale per esplorare un problema bandito", forse. Non la terminologia usata ad esempio in Sutton & Barto, ma forse alcuni partzionari lo dicono, non lo so. . .
Neil Slater,

1
L'ambiente contiene solo uno stato in cui devi affrontare sempre la stessa decisione: quale braccio devo scegliere?
Adrien Forbu,

0

Sto pensando a un panorama di probabilità, in cui ti trovi come attore, con varie vette e depressioni sconosciute. È sempre probabile che un buon approccio deterministico ti porti all'ottimale locale più vicino, ma non necessariamente all'ottimale globale. Per trovare l'ottimale globale, qualcosa come un algoritmo MCMC consentirebbe di accettare stocasticamente un risultato temporaneamente peggiore per sfuggire a un ottimale locale e trovare l'ottimale globale. La mia intuizione è che in un ambiente stocastico ciò sarebbe anche vero.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.