Come adattare i pesi ai valori Q con approssimazione di funzioni lineari

Nell'apprendimento per rinforzo, l'approssimazione di funzioni lineari viene spesso utilizzata quando sono presenti ampi spazi di stato. (Quando le tabelle di ricerca diventano impossibili.)

La forma del valore con approssimazione della funzione lineare è data da $Q-$

Q (S, un') = w_{1} f_{1} (S, un') + w_{2} f_{2} (S, un') + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

dove sono i pesi e sono le caratteristiche. $w_i$ $f_i$

Le funzionalità sono predefinite dall'utente. La mia domanda è: come vengono assegnati i pesi?

Ho letto / scaricato alcune diapositive di lezione sull'apprendimento con approssimazione della funzione. La maggior parte di essi ha delle diapositive sulla regressione lineare che seguono. Dal momento che sono solo diapositive, tendono ad essere incomplete. Mi chiedo quale sia la connessione / relazione tra i due argomenti. $Q-$

machine-learning feature-selection reinforcement-learning

— CGO
fonte

L'approssimazione di una funzione è fondamentalmente un problema di regressione (in senso generale, cioè contrario alla classificazione in cui la classe è discreta), ovvero si cerca di apprendere una mappatura di funzioni dall'input (nel tuo caso $f(s,a)$ ) a un valore reale uscita $Q(s,a)$ . Poiché non abbiamo una tabella completa di tutti i valori di input / output, ma apprendiamo e stimiamo $Q(s,a)$ allo stesso tempo, i parametri (qui: i pesi $w$ ) non possono essere calcolati direttamente dai dati. Un approccio comune qui è usare la discesa gradiente .

Ecco l'algoritmo generale per l'apprendimento di $Q(s,a)$ con l'approssimazione della funzione valore

Init parametro-vettore $w=(w_1,w_2,....,w_n)$ in modo casuale (ad esempio in [0,1])
Per ogni episodio:
1. $s\leftarrow$ stato iniziale dell'episodio
2. $a\leftarrow$ azione data dalla politica $\pi$ (raccomandare: $\epsilon$ -greedy)
3. Agire $a$ , osservare la ricompensa $r$ e il prossimo stato $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Ripetere 2-5 fino a quando $s$ è terminale

dove ...

$\alpha\in[0,1]$ è il tasso di apprendimento
$\gamma\in[0,1]$ è il tasso di sconto
$max_{a'}Q(s',a')$ è l'azione $a'$ nello stato $s'$ massimizza $Q(s',a)$
$\vec\nabla_wQ(s,a)$ è il gradiente di $Q(s,a)$ in $w$ . Nel suo caso lineare, il gradiente è semplicemente un vettore $(f_1(s,a),...,f_n(s,a))$

I parametri / pesi-aggiornamento (4 ° passo) possono essere letti in questo modo:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ è l'errore tra la previsione $Q(s,a)$ e il valore "effettivo" per $Q(s,a)$ , che è la ricompensa $r$ ottenutoora PLUSl'atteso, premio scontato a seguito della politica avidaseguito $\gamma * max_a'Q(s',a')$
Quindi il parametro / peso-vettore viene spostato nella direzione più ripida (dato dal gradiente $\vec\nabla_wQ(s,a)$ ) dalla quantità dell'errore misurato, regolato da $\alpha$ .

Fonte principale:

Capitolo 8 Approssimazione di valore del libro (raccomandato nel complesso) Apprendimento per rinforzo: un'introduzione di Sutton e Barto (Prima edizione). L'algoritmo generale è stato modificato in quanto viene comunemente utilizzato per calcolare $Q(s,a)$ anziché $V(s)$ . Ho anche lasciato cadere le tracce di ammissibilità $e$ per concentrarmi sulla discesa del gradiente, quindi usando solo backup in una fase

Più riferimenti

$Q(s,a)$
Una breve indagine sull'approssimazione di funzioni di valore parametrico di Geist e Pietquin. Sembra promettente, ma non l'ho ancora letto.

— Steffen
fonte

Link interrotto per Barto & Sutton! Ora qui -> incompleteideas.net/book/the-book.html :) e come ebook incompleteideas.net/book/ebook ma non so dove trovare un file mobi

— grisaitis

Il gradiente di Q (s, a) non è in relazione al vettore della colonna wa in cui ogni elemento è fi (s, a), invece di essere la somma di tutti i fi come hai detto? L'obiettivo è che ogni peso venga modificato di conseguenza in base al valore della caratteristica a cui si sta moltiplicando.

— Miguel Saraiva,

@MiguelSaraiva Sì, risolto. Grazie mille.

— Steffen,