Perché la lettera Q è stata scelta in Q-learning?


17

Perché la lettera Q è stata scelta nel nome di Q-learning?

La maggior parte delle lettere viene scelta come abbreviazione, come sta per policy e sta per value. Ma non penso che Q sia un'abbreviazione di nessuna parola.πv


1
Nella mia comprensione metaforica, Q è una funzione che associa una quantità (chiamala ricompensa, costo o qualsiasi altra cosa venga ottimizzata) per un'azione in un determinato stato.
Knk

1
@sycorax la domanda originale incorniciata implicava una comprensione del Q-learning e, al fine di offrire una spiegazione, aiuterebbe ad aggiungere contesto. Il PO sarebbe perso con qualsiasi spiegazione senza stabilire una messa a terra.
Knk,

Il metaforico Q = Quantity aiuta? Lo considero come una quantificazione dell'azione dato gli stati
knk

Risposte:


35

Mi dispiace deludere tutti, ma Q non rappresenta nulla :)

Il Q-learning è stato proposto da Watkins nella sua tesi di dottorato nel 1989, vedi p. 96. La Q nell'equazione in quella pagina viene aggiornata in un certo modo ad ogni passaggio. Q è il ritorno atteso dall'azione in un determinato stato, vedere la definizione di Q a pag.46. Il ritorno è in senso economico o di teoria dei giochi, vale a dire premi scontati ponderati per la probabilità, non un termine di informatica come un ritorno da una funzione.

Nota come ha già usato P per probabilità e R per ricompensa, quindi ha afferrato Q per il ritorno. Questo è tutto. Non esiste un significato più profondo per la scelta di una lettera Q.


3
Nessun significato più profondo, ma è un significato (che Q si adatta a P e R nell'alfabeto) e rappresenta qualcosa .
Sesto Empirico,

2
@MartijnWeterings Non è affatto un significato. È una scelta di lettere puramente sintattica, senza considerazioni semantiche di sorta.
David Richerby,

Certo, ci possono essere poche considerazioni semantiche (e questo potrebbe essere discusso perché differenze tra lettere latine o greche, lettere in diverse posizioni dell'alfabeto o lettere maiuscole contro lettere minuscole potrebbero formare un'area grigia tra sintattica e semantica). Considero la scelta di Q come "significativa" perché la forma della lettera (che è in qualche modo arbitraria) esprime in qualche modo il significato della variabile / parametro. Il significato si riferisce alla scelta della lettera. Non ci sarebbe stata una buona scelta quando sarebbe stato scelto u o v, oppure i, j, k o x, y, z o . α,β,γ
Sesto Empirico

@MartijnWeterings, Q suona anche come una coda , che porta anche connotazioni in qualche modo rilevanti
Aksakal

@Aksakal, questo potrebbe aver rafforzato l'uso di Q. Ma non credo sia forte. Non so molto su questo argomento, ma in una rapida panoramica di quella tesi per me sembra molto plausibile che la lettera sia stata usata per una quantità come i R i P i o i V i P i . Alla fine è stato dato "qualche nome" come "valore-azione", ma quelle lettere usate in quella tesi sembrano aderire molto più all'alfabeto. Ad esempio f g h per funzioni x y per variabili V U per valore funzione ed è approssimativo. , eccetera.QiRiPiiViPif g hx yV U
Sesto Empirico

0

Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Q


2
Leggi questa tesi e dimmi come la "qualità" ha un senso nel contesto del ritorno atteso
Aksakal,

Anche se sono d'accordo con te, la tesi è stata scritta dopo che Watkins ha consultato Andy su diverse cose. Andy potrebbe aver avuto un'idea migliore di quanto pensi che faccia.
Ameet Deshpande,

La qualità non esiste nemmeno come concetto distinto nell'apprendimento. Puoi usare la parola nel suo solito senso dall'inglese, ovviamente. Il rendimento atteso, d'altra parte, è molto ben definito nella teoria dei giochi, non è necessario diluirlo attaccando concetti vaghi come la qualità. Non stai massimizzando la qualità, stai massimizzando i premi scontati con la misura di probabilità adeguata. Se vuoi essere un po 'più ampio, puoi massimizzare l'utilità.
Aksakal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.