Predizione della sequenza pseudo-casuale

Disclaimer: sono un biologo, mi dispiace per (forse) una domanda di base formulata in termini così rozzi.

Non sono sicuro se dovrei porre questa domanda qui o su DS / SC, ma CS è il più grande di tre, quindi ecco qui. (Dopo che ho pubblicato, mi è venuto in mente che Cross-Validated potrebbe essere il posto migliore, ma purtroppo).

Immagina che ci sia un agente, che prende decisioni binarie. E un ambiente che, per ciascuna delle decisioni dell'agente ("prove"), premia l'agente oppure no. I criteri per premiare le decisioni dell'agente non sono semplici. In generale i criteri sono casuali, ma hanno delle limitazioni, ad esempio, l'ambiente non premia mai più di 3 volte per la stessa decisione e non alterna mai la decisione premiata più di 4 volte di seguito.

La sequenza di criteri potrebbe assomigliare a questa allora

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

ma mai

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

perché il criterio di ricompensa non può essere ripetuto più di 3 volte.

In queste condizioni è abbastanza facile formulare la strategia che l'osservatore ideale dovrebbe intraprendere per massimizzare la ricompensa. Qualcosa sulla falsariga di

decidere a caso
se rilevi che i criteri sono stati ripetuti 3 volte, decidi in senso contrario all'ultimo criterio
se rilevi che i criteri sono stati alternati 4 volte, decidi in base all'ultimo criterio

Ora, la parte difficile. Ora il criterio per ogni prova dipende non solo dalla storia dei criteri precedenti, ma anche dalla storia delle decisioni dell'agente, ad esempio se l'agente si alterna su più di 8 delle ultime 10 prove, premiare la stessa decisione dell'agente presa l'ultima volta (come se scoraggiare l'agente dall'alternarsi) e se l'agente ha ripetuto la stessa decisione su più di 8 delle ultime 10 prove, ovvero è di parte, fare il criterio opposto al pregiudizio. La priorità della storia dei criteri rispetto alla storia delle decisioni è specificata in anticipo, quindi non c'è mai ambiguità.

Le sequenze di decisioni (d) e criteri (c) ora potrebbero apparire così

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

Non vedo alcun modo semplice di inventare la strategia di massimizzazione per l'agente. Ma sono sicuro che ce ne deve essere uno e un qualche algoritmo di apprendimento automatico intelligente dovrebbe essere in grado di identificarlo.

La mia domanda non è tanto su come risolvere questo problema (anche se sarei felice se tu suggerissi una soluzione), ma più come vengono chiamati questi tipi di problemi? Dove posso leggerlo? Esiste una soluzione astratta o solo la simulazione può aiutare? In generale, come posso, come biologo, affrontare questo tipo di problema?

machine-learning probability-theory

— Sergey Antopolskiy
fonte

vedere ad es . analisi di serie temporali autoregressive . sarebbe utile se tu fossi più dettagliato sui dati di input. viene dalla biologia? ci sono tecniche standard per problemi standard. Anche le ANN ricorrenti (reti neurali artificiali) lo gestiscono.

— potrebbe anche essere trasmesso

I modelli nascosti di Markov possono essere uno strumento utile.

— Raffaello

Si consiglia di leggere su follow-the-leader e altre varianti - onlineprediction.net/?n=Main.FollowTheLeader

— MOTIN

Penso che ciò a cui ti riferisci sia vicino a ciò che le persone in ML chiamano Reinforcement Learning .

— Kaveh,

ps: potresti provare a pubblicare post su Cross Validated se non ricevi una risposta qui dopo qualche tempo.

— Kaveh,

È possibile affrontare questo problema utilizzando l'apprendimento per rinforzo.

Un libro classico per questo è Sutton e Barto:

La bozza della seconda edizione è disponibile gratuitamente: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Per rendere Markovian il tuo problema, definisci ogni stato come un vettore delle ultime dieci decisioni. Le tue azioni saranno 1 o 0.

— Juan Leni
fonte