Domande taggate «reinforcement-learning»

Per domande relative all'apprendimento controllato da rinforzo positivo esterno o segnale di feedback negativo o entrambi, in cui l'apprendimento e l'uso di ciò che è stato finora appreso si verificano contemporaneamente.




2
Come definire gli stati nell'apprendimento per rinforzo?
Sto studiando l'apprendimento per rinforzo e le sue varianti. Sto iniziando a capire come funzionano gli algoritmi e come si applicano a un MDP. Quello che non capisco è il processo di definizione degli stati dell'MDP. Nella maggior parte degli esempi e tutorial, rappresentano qualcosa di semplice come un quadrato …






1
Perché DQN richiede due reti diverse?
Stavo attraversando questa implementazione di DQN e vedo che sulla linea 124 e 125 sono state inizializzate due diverse reti Q. Da quanto ho capito, penso che una rete preveda l'azione appropriata e la seconda preveda i valori Q di destinazione per trovare l'errore Bellman. Perché non possiamo creare un'unica …

2
Perché Q-learning non converge quando si usa l'approssimazione delle funzioni?
L'algoritmo tabellare Q-learning è garantito per trovare la funzione QQQ ottimale , Q*Q∗Q^* , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento Σtαt( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} …




3
La politica ottimale è sempre stocastica se anche l'ambiente è stocastico?
La politica ottimale è sempre stocastica (ovvero una mappa dagli stati a una distribuzione di probabilità sulle azioni) se anche l'ambiente è stocastico? Intuitivamente, se l'ambiente è deterministico (cioè, se l'agente è in uno stato SSs e interviene un'un'a , allora lo stato successivo S'S's' è sempre la stessa, senza …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.