Area dell'apprendimento automatico riguardante il modo in cui gli agenti software dovrebbero intraprendere azioni in un ambiente in modo da massimizzare alcune nozioni di ricompensa cumulativa.
Mi sembra che la funzione VVV possa essere facilmente espressa dalla funzione QQQ e quindi la funzione VVV sembra superflua. Tuttavia, sono nuovo nell'apprendimento del rinforzo, quindi credo di aver sbagliato qualcosa. definizioni L'apprendimento Q e V sono nel contesto dei processi decisionali di Markov . Un MDP è una …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Stavo leggendo un riassunto di alto livello su AlphaGo di Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) e ho trovato i termini "policy network "e" value network ". Ad alto livello, capisco che la rete politica viene utilizzata per suggerire mosse e la rete del valore viene utilizzata per "Ridurre la profondità dell'albero …
Apparentemente, nell'apprendimento per rinforzo, il metodo della differenza temporale (TD) è un metodo di bootstrap. D'altro canto, i metodi Monte Carlo non sono metodi di bootstrap. Che cos'è esattamente il bootstrap in RL? Che cos'è un metodo di bootstrap in RL?
Ho letto DeepMind Atari di Google di carta e sto cercando di capire il concetto di "esperienza replay". L'esperienza replay emerge in molti altri documenti di apprendimento per rinforzo (in particolare, il documento AlphaGo), quindi voglio capire come funziona. Di seguito sono riportati alcuni estratti. Innanzitutto, abbiamo utilizzato un meccanismo …
Non sono uno specialista in materia e la mia domanda è probabilmente molto ingenua. Deriva da un saggio per comprendere i poteri e le limitazioni dell'apprendimento per rinforzo come usato nel programma AlphaGo. Il programma AlphaGo è stato realizzato utilizzando, tra le altre cose (esplorazione degli alberi di Monte-Carlo, ecc.) …
Sto costruendo un'auto a guida autonoma telecomandata per divertimento. Sto usando un Raspberry Pi come computer di bordo; e sto usando vari plug-in, come una fotocamera Raspberry Pi e sensori di distanza, per feedback sull'ambiente circostante. Sto usando OpenCV per trasformare i fotogrammi video in tensori e sto usando TensorFlow …
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Ho già un'implementazione funzionante per un singolo agente che lavora su un problema di prezzi dinamico con l'obiettivo di massimizzare le entrate. Il problema con cui sto lavorando, tuttavia, coinvolge diversi prodotti che si sostituiscono a vicenda, quindi il prezzo dinamico di tutti con studenti indipendenti sembra errato, perché il …
Ho sviluppato un programma di scacchi che utilizza l'algoritmo di potatura alfa-beta e una funzione di valutazione che valuta le posizioni usando le seguenti caratteristiche: materiale, sicurezza del re, mobilità, struttura dei pedoni e pezzi intrappolati ecc .... La mia funzione di valutazione è derivato dal f( p ) = …
Non riesco a capire lo scopo dei pesi di campionamento per importanza (IS) in Replay prioritario (pagina 5) . È più probabile che una transizione venga campionata per esperienza, più grande è il suo "costo". La mia comprensione è che "IS" aiuta ad abbandonare senza problemi l'uso del replay prioritario …
Ho cercato di capire l'apprendimento per rinforzo da un po 'di tempo, ma in qualche modo non sono in grado di visualizzare come scrivere un programma per l'apprendimento per rinforzo per risolvere un problema del mondo della griglia. Puoi suggerirmi alcuni libri di testo che mi aiuterebbero a costruire una …
Sono laureato B.Sc. Uno dei miei corsi è stato "Introduzione all'apprendimento automatico" e ho sempre voluto realizzare un progetto personale in questa materia. Di recente ho sentito parlare di diversi allenamenti di intelligenza artificiale per giocare a giochi come Mario, Go, ecc. Quali conoscenze devo acquisire per allenare un semplice …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.