Per domande relative all'apprendimento controllato da rinforzo positivo esterno o segnale di feedback negativo o entrambi, in cui l'apprendimento e l'uso di ciò che è stato finora appreso si verificano contemporaneamente.
In matematica, l' operatore parola può fare riferimento a diversi concetti distinti ma correlati. Un operatore può essere definito come una funzione tra due spazi vettoriali, può essere definito come una funzione in cui dominio e codice sono uguali oppure può essere definito come una funzione da funzioni (che sono …
In robotica, la tecnica di apprendimento del rinforzo viene utilizzata per trovare il modello di controllo per un robot. Sfortunatamente, la maggior parte dei metodi di gradiente politico sono statisticamente di parte che potrebbero portare il robot in una situazione pericolosa, vedere pagina 2 in Jan Peters e Stefan Schaal: …
Ho inventato un gioco da tavolo simile agli scacchi. Ho costruito un motore in modo che possa funzionare autonomamente. Il motore è sostanzialmente un albero decisionale. È composto da: Una funzione di ricerca che su ogni nodo trova tutte le possibili mosse legali Una funzione di valutazione che assegna un …
Per quanto ne so, l'algoritmo di ricerca dell'albero di Monte Carlo (MCTS) è un'alternativa a minimax per la ricerca di un albero di nodi. Funziona scegliendo una mossa (generalmente quella con la più alta possibilità di essere la migliore), quindi eseguendo un playout casuale sulla mossa per vedere qual è …
Conosco l'apprendimento supervisionato e non supervisionato. Ho seguito il corso SaaS tenuto da Andrew Ng su Coursera.org. Sto cercando qualcosa di simile per l'apprendimento per rinforzo. Puoi consigliarmi qualcosa?
L'universo di OpenAI utilizza algoritmi RL e ho sentito parlare di alcuni progetti di addestramento di giochi che utilizzano l'apprendimento Q, ma ce ne sono altri che vengono utilizzati per padroneggiare / vincere i giochi? Gli algoritmi genetici possono essere usati per vincere in una partita?
La maggior parte delle presentazioni nel campo degli MDP e dell'apprendimento per rinforzo si concentrano esclusivamente su domini in cui le variabili di spazio e azione sono numeri interi (e finiti). In questo modo siamo introdotti rapidamente a Value Iteration, Q-Learning e simili. Tuttavia le applicazioni più interessanti (diciamo, elicotteri …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.