L'apprendimento per rinforzo può essere applicato per la previsione di serie temporali?

Sì, ma in generale non è un buon strumento per l'attività, a meno che non ci sia un feedback significativo tra previsioni e comportamento in corso del sistema.

Per costruire un problema di apprendimento di rinforzo (RL) in cui vale la pena utilizzare un algoritmo di previsione o controllo RL, è necessario identificare alcuni componenti:

Un ambiente che si trova in uno dei tanti stati che possono essere misurati / osservati in una sequenza.
Un agente che può osservare lo stato corrente e intraprendere azioni nella stessa sequenza.
L'evoluzione dello stato nella sequenza dovrebbe dipendere da una combinazione dello stato corrente e dell'azione intrapresa, e può anche essere stocastica.
Dovrebbe esserci un segnale di ricompensa che l'agente RL può osservare o misurare. Il valore della ricompensa dovrebbe dipendere dagli stessi fattori dell'evoluzione dello stato, ma può dipendere da essi in modo diverso.

Il caso generale della previsione di serie temporali può essere adattato a questo trattando la previsione come azione, poiché l'evoluzione dello stato dipende solo dallo stato corrente (più casualità) e dalla ricompensa basata su stato e azione. Ciò consentirà l'applicazione di RL, ma la causalità scorre solo in una direzione, dall'ambiente al modello predittivo. In quanto tale, ad esempio, il meglio che puoi fare per i premi è utilizzare alcune metriche sulla correttezza delle previsioni. Le conseguenze di previsioni buone o cattive non influiscono sull'ambiente originale. Fondamentalmente finirai per avvolgere alcuni modelli predittivi per la sequenza (come una rete neurale) in uno strato RL che potrebbe essere facilmente sostituito dalla gestione di set di dati di base per un problema di apprendimento supervisionato.

Un modo in cui è possibile estendere in modo significativo i problemi di previsione in serie ai problemi di RL è quello di aumentare la portata dell'ambiente per includere le decisioni prese in base alle previsioni e lo stato dei sistemi interessati da tali decisioni. Ad esempio, se si prevedono prezzi delle azioni, includere il proprio portafoglio e fondi nello stato. Allo stesso modo le azioni smettono di essere le previsioni, diventando comandi di acquisto e vendita. Ciò non migliorerà la componente di previsione del prezzo (e probabilmente starai meglio trattandolo come un problema separato, usando strumenti più appropriati - ad esempio LSTM), ma inquadrerà il problema in generale come un problema RL.

— Neil Slater
fonte