Cooperative Reinforcement Learning


10

Ho già un'implementazione funzionante per un singolo agente che lavora su un problema di prezzi dinamico con l'obiettivo di massimizzare le entrate. Il problema con cui sto lavorando, tuttavia, coinvolge diversi prodotti che si sostituiscono a vicenda, quindi il prezzo dinamico di tutti con studenti indipendenti sembra errato, perché il prezzo di uno influenza la ricompensa dell'altro. L'obiettivo sarebbe quello di valutarli tutti dinamicamente in modo da massimizzare la somma di ogni singolo reddito.Q(λ)

Ho fatto alcune ricerche per cercare di trovare qualcosa che applichi l'apprendimento per rinforzo in questo modo, ma molte implementazioni multi-agente che ho trovato focalizzate più sui giochi competitivi che sulle cooperative, o assumono una conoscenza incompleta di altri agenti (avrei completato conoscenza di ciascun agente in questo scenario). Esistono applicazioni ben studiate / documentate dell'apprendimento cooperativo in questo modo?

Risposte:



0

Tutto sommato, quello che stai cercando di raggiungere è l'efficienza di Pareto.

Per renderlo cooperativo, è necessario definire un'unica funzione di ricompensa condivisa da tutti i giocatori (potrebbe essere una funzione che combina in qualche modo le funzioni di ricompensa individuali).

In qualche modo, devi ponderare i premi che ottieni da un prodotto rispetto agli altri.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.