Ho già un'implementazione funzionante per un singolo agente che lavora su un problema di prezzi dinamico con l'obiettivo di massimizzare le entrate. Il problema con cui sto lavorando, tuttavia, coinvolge diversi prodotti che si sostituiscono a vicenda, quindi il prezzo dinamico di tutti con studenti indipendenti sembra errato, perché il prezzo di uno influenza la ricompensa dell'altro. L'obiettivo sarebbe quello di valutarli tutti dinamicamente in modo da massimizzare la somma di ogni singolo reddito.
Ho fatto alcune ricerche per cercare di trovare qualcosa che applichi l'apprendimento per rinforzo in questo modo, ma molte implementazioni multi-agente che ho trovato focalizzate più sui giochi competitivi che sulle cooperative, o assumono una conoscenza incompleta di altri agenti (avrei completato conoscenza di ciascun agente in questo scenario). Esistono applicazioni ben studiate / documentate dell'apprendimento cooperativo in questo modo?