Disclaimer: sono un biologo, mi dispiace per (forse) una domanda di base formulata in termini così rozzi.
Non sono sicuro se dovrei porre questa domanda qui o su DS / SC, ma CS è il più grande di tre, quindi ecco qui. (Dopo che ho pubblicato, mi è venuto in mente che Cross-Validated potrebbe essere il posto migliore, ma purtroppo).
Immagina che ci sia un agente, che prende decisioni binarie. E un ambiente che, per ciascuna delle decisioni dell'agente ("prove"), premia l'agente oppure no. I criteri per premiare le decisioni dell'agente non sono semplici. In generale i criteri sono casuali, ma hanno delle limitazioni, ad esempio, l'ambiente non premia mai più di 3 volte per la stessa decisione e non alterna mai la decisione premiata più di 4 volte di seguito.
La sequenza di criteri potrebbe assomigliare a questa allora
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
ma mai
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
perché il criterio di ricompensa non può essere ripetuto più di 3 volte.
In queste condizioni è abbastanza facile formulare la strategia che l'osservatore ideale dovrebbe intraprendere per massimizzare la ricompensa. Qualcosa sulla falsariga di
- decidere a caso
- se rilevi che i criteri sono stati ripetuti 3 volte, decidi in senso contrario all'ultimo criterio
- se rilevi che i criteri sono stati alternati 4 volte, decidi in base all'ultimo criterio
Ora, la parte difficile. Ora il criterio per ogni prova dipende non solo dalla storia dei criteri precedenti, ma anche dalla storia delle decisioni dell'agente, ad esempio se l'agente si alterna su più di 8 delle ultime 10 prove, premiare la stessa decisione dell'agente presa l'ultima volta (come se scoraggiare l'agente dall'alternarsi) e se l'agente ha ripetuto la stessa decisione su più di 8 delle ultime 10 prove, ovvero è di parte, fare il criterio opposto al pregiudizio. La priorità della storia dei criteri rispetto alla storia delle decisioni è specificata in anticipo, quindi non c'è mai ambiguità.
Le sequenze di decisioni (d) e criteri (c) ora potrebbero apparire così
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Non vedo alcun modo semplice di inventare la strategia di massimizzazione per l'agente. Ma sono sicuro che ce ne deve essere uno e un qualche algoritmo di apprendimento automatico intelligente dovrebbe essere in grado di identificarlo.
La mia domanda non è tanto su come risolvere questo problema (anche se sarei felice se tu suggerissi una soluzione), ma più come vengono chiamati questi tipi di problemi? Dove posso leggerlo? Esiste una soluzione astratta o solo la simulazione può aiutare? In generale, come posso, come biologo, affrontare questo tipo di problema?