Qual è la relazione tra la teoria dei giochi e l'apprendimento per rinforzo?


11

Sono interessato a (Deep) Reinforcement Learning (RL) . Prima di immergermi in questo campo dovrei seguire un corso in Game Theory (GT) ?

Come sono correlati GT e RL ?


2
Sono simili quanto i martelli e la panna montata. Probabilmente è possibile trovare un problema in cui è possibile utilizzare entrambi, ma non è comune.
Don Reba,

4
@DonReba Non secondo due noti ricercatori di Reinforcement Learning: udacity.com/course/… Penso che la teoria dei giochi ti dica qual è la politica ottimale, mentre RL ti dice come gli agenti possono imparare la politica ottimale o buona.
Kiuhnm,

3
@DonReba, forse in termini del solito contenuto che viene insegnato in loro. Tuttavia, gli scopi dei due campi non sono così diversi. L'apprendimento per rinforzo potrebbe essere visto come un gioco di informazioni imperfette, spesso per un giocatore. O come una partita a due giocatori in cui l'altro giocatore, la natura, segue una serie di regole che desideri scoprire.
congetture il

1
Questo è stato educativo. :)
Don Reba,

Risposte:


12

In Reinforcement Learning (RL) è comune immaginare un sottostante processo decisionale Markov (MDP). Quindi l'obiettivo di RL è apprendere una buona politica per l'MDP, che è spesso solo parzialmente specificata. Gli MDP possono avere obiettivi diversi come la ricompensa totale, media o scontata, in cui la ricompensa scontata è il presupposto più comune per RL. Esistono estensioni ben studiate degli MDP alle impostazioni per due giocatori (ad es. Gioco); vedi, ad es.

Filar, Jerzy e Koos Vrieze. Processi decisionali di Markov competitivi . Springer Science & Business Media, 2012.

Esiste una teoria di base condivisa dagli MDP e dalle loro estensioni ai giochi a due giocatori (a somma zero), tra cui, ad esempio, il teorema del punto fisso di Banach, Iterazione di valore, Ottimizzazione di Bellman, Iterazione delle politiche / Miglioramento della strategia ecc. Tuttavia, mentre ci sono queste strette connessioni tra MDP (e quindi RL) e questi tipi specifici di giochi:

  • puoi conoscere RL (e MDPs) direttamente, senza GT come prerequisito;
  • in ogni caso, non dovresti conoscere queste cose nella maggior parte dei corsi GT (che normalmente si concentrerebbero, ad esempio, su giochi strategici, di forma estesa e ripetuti, ma non sui giochi infiniti statali che generalizzano gli MDP).


0

RL: un singolo agente viene addestrato per risolvere un problema decisionale di Markov (MDPS). GT: Due agenti sono addestrati per risolvere i Giochi. Un apprendimento di rinforzo multi-agente (MARL) può essere utilizzato per risolvere giochi stocastici.

Se sei interessato all'applicazione single-agent di RL in deep learning, non devi seguire alcun corso GT. Per due o più agenti potresti dover conoscere le tecniche teoriche del gioco.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.