Che cos'è un "apprendimento di rinforzo ricorrente"?
L'apprendimento periodico di rinforzo ( RRL ) è stato introdotto per la prima volta per l'addestramento dei sistemi di scambio di reti neurali nel 1996. "Ricorrente" significa che l'output precedente viene inserito nel modello come parte dell'input. Fu presto esteso alla negoziazione in un mercato FX.
La tecnica RRL è risultata essere una tecnica di apprendimento automatico di successo per la costruzione di sistemi di trading finanziario.
Qual è la differenza tra "apprendimento di rinforzo ricorrente" e "apprendimento di rinforzo" normale (come l'algoritmo Q-Learning)?
L' approccio RRL differisce chiaramente dalla programmazione dinamica e dagli algoritmi di rinforzo come TD-learning e Q-learning , che tentano di stimare una funzione di valore per il problema di controllo.
Il framework RRL consente di creare la rappresentazione del problema semplice ed elegante, evita la maledizione della dimensionalità di Bellman e offre vantaggi convincenti in termini di efficienza:
RRL produce azioni con valori reali (pesi di portafoglio) naturalmente senza ricorrere al metodo di discretizzazione nel Q-learning .
RRL ha prestazioni più stabili rispetto all'apprendimento Q quando esposto a set di dati rumorosi. L' algoritmo Q-learning è più sensibile alla selezione della funzione valore (forse) a causa della proprietà ricorsiva dell'ottimizzazione dinamica, mentre l' algoritmo RRL è più flessibile nella scelta della funzione obiettivo e nel risparmio di tempo di calcolo.
U( )
Qui troverai un'implementazione di Matlab dell'algoritmo RRL.
Riferimenti
Apprendimento di rinforzo per il trading
Apprendimento di rinforzo per sistemi di trading e portafogli
Trading FX tramite apprendimento di rinforzo ricorrente
Stock trading con apprendimento periodico di rinforzo (RRL)
Algorithm Trading utilizzando Q-Learning e l'apprendimento di rinforzi ricorrenti
ESPLORARE GLI ALGORITMI PER IL COMMERCIO AUTOMATICO DI FX - COSTRUIRE UN MODELLO IBRIDO