Per domande relative all'apprendimento controllato da rinforzo positivo esterno o segnale di feedback negativo o entrambi, in cui l'apprendimento e l'uso di ciò che è stato finora appreso si verificano contemporaneamente.
Qual è la differenza tra l'apprendimento per rinforzo senza modelli e basato su modelli? Mi sembra che qualsiasi studente privo di modelli, imparando attraverso prove ed errori, possa essere riformulato come basato su modelli. In tal caso, quando sarebbero appropriati gli studenti liberi da modelli?
Per quanto ho capito, Q-learning e gradienti politici (PG) sono i due principali approcci utilizzati per risolvere i problemi di RL. Mentre il Q-learning mira a prevedere la ricompensa di una determinata azione intrapresa in un determinato stato, i gradienti politici predicono direttamente l'azione stessa. Tuttavia, entrambi gli approcci mi …
Voglio creare un'intelligenza artificiale in grado di giocare a cinque di fila / gomoku. Come ho già detto nel titolo, voglio usare l'apprendimento per rinforzo per questo. Uso il metodo del gradiente delle politiche , vale a dire REINFORCE, con baseline. Per l'approssimazione del valore e della funzione politica, utilizzo …
Sto studiando l'apprendimento per rinforzo e le sue varianti. Sto iniziando a capire come funzionano gli algoritmi e come si applicano a un MDP. Quello che non capisco è il processo di definizione degli stati dell'MDP. Nella maggior parte degli esempi e tutorial, rappresentano qualcosa di semplice come un quadrato …
Ad esempio, il titolo di questo documento recita: "Esempio di attore efficiente critico con esperienza Replay". Che cos'è l' efficienza del campione e come può essere utilizzato il campionamento per importanza per raggiungerlo?
Esiste un modo per insegnare l'apprendimento per rinforzo in applicazioni diverse dai giochi? Gli unici esempi che posso trovare su Internet sono degli agenti di gioco. Capisco che i VNC controllano l'ingresso ai giochi tramite la rete di rinforzo. È possibile configurarlo con un software CAD?
Sto codificando un modello di apprendimento di rinforzo con un agente PPO grazie all'ottima libreria Tensorforce , costruita su Tensorflow. La prima versione era molto semplice e ora mi sto tuffando in un ambiente più complesso in cui tutte le azioni non sono disponibili ad ogni passaggio. Diciamo che ci …
Ho studiato l'apprendimento per rinforzo e in particolare ho cercato di creare i miei ambienti da utilizzare con l'IA di OpenAI Gym. Sto usando gli agenti del progetto stable_baselines per testarlo. Una cosa che ho notato praticamente in tutti gli esempi di RL è che non sembra esserci mai alcun …
Quando si progettano soluzioni a problemi come Lunar Lander su OpenAIGym , Reinforcement Learning è un mezzo allettante per fornire all'agente un adeguato controllo dell'azione per atterrare con successo. Ma quali sono i casi in cui gli algoritmi del sistema di controllo, come i controller PID , farebbero proprio un …
Stavo attraversando questa implementazione di DQN e vedo che sulla linea 124 e 125 sono state inizializzate due diverse reti Q. Da quanto ho capito, penso che una rete preveda l'azione appropriata e la seconda preveda i valori Q di destinazione per trovare l'errore Bellman. Perché non possiamo creare un'unica …
L'algoritmo tabellare Q-learning è garantito per trovare la funzione QQQ ottimale , Q*Q∗Q^* , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento Σtαt( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} …
Stavo leggendo il libro Reinforcement Learning: An Introduction di Richard S. Sutton e Andrew G. Barto (bozza completa, 5 novembre 2017). A pagina 271, viene presentato lo pseudo-codice per il metodo episodico Monte-Carlo Policy-Gradient. Guardando questo pseudo-codice non riesco a capire perché sembra che il tasso di sconto appaia 2 …
Come studente che vuole lavorare sull'apprendimento automatico, vorrei sapere come è possibile iniziare i miei studi e come seguirlo per rimanere aggiornati. Ad esempio, sono disposto a lavorare su problemi RL e MAB, ma ci sono letterature enormi su questi argomenti. Inoltre, questi argomenti sono studiati da ricercatori di diverse …
Trusted Region Policy Optimization (TRPO) e Proximal Policy Optimization (PPO) sono due algoritmi di gradienti di politica all'avanguardia. Quando si utilizza una singola azione continua, normalmente, si utilizzerà una distribuzione di probabilità (ad esempio, gaussiana) per la funzione di perdita. La versione approssimativa è: L ( θ ) = log( …
La politica ottimale è sempre stocastica (ovvero una mappa dagli stati a una distribuzione di probabilità sulle azioni) se anche l'ambiente è stocastico? Intuitivamente, se l'ambiente è deterministico (cioè, se l'agente è in uno stato SSs e interviene un'un'a , allora lo stato successivo S'S's' è sempre la stessa, senza …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.