Contesto:
sto usando l'approssimazione del valore Q della rete neurale nel mio compito di apprendimento di rinforzo. L'approccio è esattamente lo stesso di quello descritto in questa domanda , tuttavia la domanda stessa è diversa.
In questo approccio il numero di risultati è il numero di azioni che possiamo intraprendere. E in parole semplici, l'algoritmo è il seguente: esegui l'azione A, esplora la ricompensa, chiedi a NN di prevedere i valori Q per tutte le azioni possibili, scegli il valore Q massimo, calcola Q per un'azione A particolare come R + max(new_state_Q)
. Adatta il modello ai valori Q previsti con solo uno di essi sostituito da R + max(new_state_Q)
.
Domanda: quanto è efficace questo approccio se il numero di uscite è elevato?
Tentativo: supponiamo che ci siano 10 azioni che possiamo intraprendere. Ad ogni passaggio chiediamo al modello di prevedere 10 valori, in tenera età del modello questa previsione è un disastro totale. Quindi modifichiamo 1 valore dell'output e adattiamo il modello a questi valori.
Ho due pensieri opposti su quanto sia buono / cattivo questo approccio e non riesco a decidere quale sia giusto:
- Da un punto di vista, stiamo allenando ogni neurone 9 volte su dati casuali e solo una volta su dati vicini al valore reale. Se NN ha previsto 5 per l'azione A nello stato S, ma il valore reale è -100, inseriremo NN 9 volte con valore 5 e quindi una volta con valore -100. Sembra pazzo.
- Da un altro punto di vista, l'apprendimento della rete neurale viene implementato come propagazione all'indietro di un errore , quindi quando il modello ha previsto 5 e lo stiamo allenando su 5 non imparerà nulla di nuovo, poiché l'errore è 0. I pesi non vengono toccati . E solo quando calcoleremo -100 e lo adatteremo al modello, eseguirà il ricalcolo del peso.
Quale opzione è giusta? Forse c'è qualcos'altro che non sto prendendo in considerazione?
AGGIORNAMENTO: Per "quanto efficiente" intendo paragonare un approccio con un risultato - premio previsto. Naturalmente, l'azione farà parte dell'input in questo caso. Quindi l'approccio n. 1 prevede previsioni per tutte le azioni basate su alcuni stati, l'approccio n. 2 prevede previsioni per azioni specifiche intraprese in alcuni stati.