Cooperative Reinforcement Learning

10

Ho già un'implementazione funzionante per un singolo agente che lavora su un problema di prezzi dinamico con l'obiettivo di massimizzare le entrate. Il problema con cui sto lavorando, tuttavia, coinvolge diversi prodotti che si sostituiscono a vicenda, quindi il prezzo dinamico di tutti con studenti indipendenti sembra errato, perché il prezzo di uno influenza la ricompensa dell'altro. L'obiettivo sarebbe quello di valutarli tutti dinamicamente in modo da massimizzare la somma di ogni singolo reddito. $Q(\lambda)$

Ho fatto alcune ricerche per cercare di trovare qualcosa che applichi l'apprendimento per rinforzo in questo modo, ma molte implementazioni multi-agente che ho trovato focalizzate più sui giochi competitivi che sulle cooperative, o assumono una conoscenza incompleta di altri agenti (avrei completato conoscenza di ciascun agente in questo scenario). Esistono applicazioni ben studiate / documentate dell'apprendimento cooperativo in questo modo?

machine-learning reinforcement-learning

— user3704120
fonte

1

Puoi guardare questi documenti. Il primo è abbastanza correlato al tuo compito.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
fonte

0

Tutto sommato, quello che stai cercando di raggiungere è l'efficienza di Pareto.

Per renderlo cooperativo, è necessario definire un'unica funzione di ricompensa condivisa da tutti i giocatori (potrebbe essere una funzione che combina in qualche modo le funzioni di ricompensa individuali).

In qualche modo, devi ponderare i premi che ottieni da un prodotto rispetto agli altri.

— Juan Leni
fonte