Perché la lettera Q è stata scelta nel nome di Q-learning?
La maggior parte delle lettere viene scelta come abbreviazione, come sta per policy e sta per value. Ma non penso che Q sia un'abbreviazione di nessuna parola.
Perché la lettera Q è stata scelta nel nome di Q-learning?
La maggior parte delle lettere viene scelta come abbreviazione, come sta per policy e sta per value. Ma non penso che Q sia un'abbreviazione di nessuna parola.
Risposte:
Mi dispiace deludere tutti, ma Q non rappresenta nulla :)
Il Q-learning è stato proposto da Watkins nella sua tesi di dottorato nel 1989, vedi p. 96. La Q nell'equazione in quella pagina viene aggiornata in un certo modo ad ogni passaggio. Q è il ritorno atteso dall'azione in un determinato stato, vedere la definizione di Q a pag.46. Il ritorno è in senso economico o di teoria dei giochi, vale a dire premi scontati ponderati per la probabilità, non un termine di informatica come un ritorno da una funzione.
Nota come ha già usato P per probabilità e R per ricompensa, quindi ha afferrato Q per il ritorno. Questo è tutto. Non esiste un significato più profondo per la scelta di una lettera Q.