Scienza dei dati reinforcement-learning

5

Cos'è la funzione Q e qual è la funzione V nell'apprendimento per rinforzo?

Mi sembra che la funzione VVV possa essere facilmente espressa dalla funzione QQQ e quindi la funzione VVV sembra superflua. Tuttavia, sono nuovo nell'apprendimento del rinforzo, quindi credo di aver sbagliato qualcosa. definizioni L'apprendimento Q e V sono nel contesto dei processi decisionali di Markov . Un MDP è una …

30 machine-learning reinforcement-learning

1

Perché xgboost è molto più veloce di sklearn GradientBoostingClassifier?

Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

Differenza tra la rete di politiche di AlphaGo e la rete di valori

Stavo leggendo un riassunto di alto livello su AlphaGo di Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) e ho trovato i termini "policy network "e" value network ". Ad alto livello, capisco che la rete politica viene utilizzata per suggerire mosse e la rete del valore viene utilizzata per "Ridurre la profondità dell'albero …

25 machine-learning reinforcement-learning

2

Cos'è esattamente il bootstrap nell'apprendimento per rinforzo?

Apparentemente, nell'apprendimento per rinforzo, il metodo della differenza temporale (TD) è un metodo di bootstrap. D'altro canto, i metodi Monte Carlo non sono metodi di bootstrap. Che cos'è esattamente il bootstrap in RL? Che cos'è un metodo di bootstrap in RL?

23 reinforcement-learning

1

Che cos'è il "replay dell'esperienza" e quali sono i suoi vantaggi?

Ho letto DeepMind Atari di Google di carta e sto cercando di capire il concetto di "esperienza replay". L'esperienza replay emerge in molti altri documenti di apprendimento per rinforzo (in particolare, il documento AlphaGo), quindi voglio capire come funziona. Di seguito sono riportati alcuni estratti. Innanzitutto, abbiamo utilizzato un meccanismo …

19 reinforcement-learning q-learning

4

AlphaGo (e altri programmi di gioco che usano il rinforzo-apprendimento) senza database umano

Non sono uno specialista in materia e la mia domanda è probabilmente molto ingenua. Deriva da un saggio per comprendere i poteri e le limitazioni dell'apprendimento per rinforzo come usato nel programma AlphaGo. Il programma AlphaGo è stato realizzato utilizzando, tra le altre cose (esplorazione degli alberi di Monte-Carlo, ecc.) …

13 reinforcement-learning

1

Apprendimento supervisionato vs apprendimento di rinforzo per una semplice auto RC a guida autonoma

Sto costruendo un'auto a guida autonoma telecomandata per divertimento. Sto usando un Raspberry Pi come computer di bordo; e sto usando vari plug-in, come una fotocamera Raspberry Pi e sensori di distanza, per feedback sull'ambiente circostante. Sto usando OpenCV per trasformare i fotogrammi video in tensori e sto usando TensorFlow …

12 reinforcement-learning supervised-learning

3

Esistono buoni modelli linguistici predefiniti per Python?

Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Cooperative Reinforcement Learning

Ho già un'implementazione funzionante per un singolo agente che lavora su un problema di prezzi dinamico con l'obiettivo di massimizzare le entrate. Il problema con cui sto lavorando, tuttavia, coinvolge diversi prodotti che si sostituiscono a vicenda, quindi il prezzo dinamico di tutti con studenti indipendenti sembra errato, perché il …

10 machine-learning reinforcement-learning

2

implementare la differenza temporale negli scacchi

Ho sviluppato un programma di scacchi che utilizza l'algoritmo di potatura alfa-beta e una funzione di valutazione che valuta le posizioni usando le seguenti caratteristiche: materiale, sicurezza del re, mobilità, struttura dei pedoni e pezzi intrappolati ecc .... La mia funzione di valutazione è derivato dal f( p ) = …

10 machine-learning algorithms reinforcement-learning

2

Replay prioritario, cosa fa realmente il campionamento di importanza?

Non riesco a capire lo scopo dei pesi di campionamento per importanza (IS) in Replay prioritario (pagina 5) . È più probabile che una transizione venga campionata per esperienza, più grande è il suo "costo". La mia comprensione è che "IS" aiuta ad abbandonare senza problemi l'uso del replay prioritario …

10 reinforcement-learning

1

L'apprendimento per rinforzo può essere applicato per la previsione di serie temporali?

9 time-series reinforcement-learning forecasting

4

Libri sull'apprendimento per rinforzo

Ho cercato di capire l'apprendimento per rinforzo da un po 'di tempo, ma in qualche modo non sono in grado di visualizzare come scrivere un programma per l'apprendimento per rinforzo per risolvere un problema del mondo della griglia. Puoi suggerirmi alcuni libri di testo che mi aiuterebbero a costruire una …

9 machine-learning books reinforcement-learning

3

Di quali conoscenze ho bisogno per scrivere un semplice programma AI per giocare?

Sono laureato B.Sc. Uno dei miei corsi è stato "Introduzione all'apprendimento automatico" e ho sempre voluto realizzare un progetto personale in questa materia. Di recente ho sentito parlare di diversi allenamenti di intelligenza artificiale per giocare a giochi come Mario, Go, ecc. Quali conoscenze devo acquisire per allenare un semplice …

8 machine-learning algorithms beginner reinforcement-learning training

Domande taggate «reinforcement-learning»