Domande taggate «reinforcement-learning»

Un insieme di strategie dinamiche grazie alle quali un algoritmo può apprendere online la struttura di un ambiente eseguendo in modo adattivo azioni associate a diversi premi in modo da massimizzare i premi ottenuti.

2
Domande su Q-Learning tramite reti neurali
Ho implementato Q-Learning come descritto in, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Al fine di ca. Q (S, A) Uso una struttura di rete neurale come la seguente, Sigmoide di attivazione Ingressi, numero di ingressi + 1 per neuroni d'azione (tutti gli ingressi in scala 0-1) Uscite, uscita singola. Q-Valore N numero di M strati …


1
GAM vs LOESS vs spline
Contesto : Voglio tracciare una linea in un grafico a dispersione che non appare parametrico, quindi sto usando geom_smooth()in ggplota R. Restituisce automaticamente geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …







2
Quando sono preferiti i metodi Monte Carlo rispetto a quelli con differenza temporale?
Ultimamente ho fatto molte ricerche sull'apprendimento per rinforzo. Ho seguito l' apprendimento di rinforzo di Sutton & Barto : un'introduzione per la maggior parte di questo. So quali sono i processi decisionali di Markov e come l'apprendimento della programmazione dinamica (DP), Monte Carlo e differenza temporale (DP) può essere utilizzato …




1
È possibile addestrare un modello di P (Y | X) mediante discesa gradiente stocastica da campioni non iid di P (X) e campioni iid di P (Y | X)?
Durante l'addestramento di un modello parametrico (ad es. Per massimizzare la probabilità) tramite la discesa stocastica del gradiente su alcuni set di dati, si presume comunemente che i campioni di allenamento siano estratti dalla distribuzione dei dati di allenamento. Quindi, se l'obiettivo è quello di modellare una distribuzione congiunta , …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.