In che tipo di situazioni di vita reale possiamo usare un algoritmo bandito multi-braccio?


15

I banditi multibraccio funzionano bene in situazioni in cui hai delle scelte e non sei sicuro di quale massimizzerà il tuo benessere. È possibile utilizzare l'algoritmo per alcune situazioni di vita reale. Ad esempio, l'apprendimento può essere un buon campo:

Se un bambino sta imparando la falegnameria e non sa come farlo, l'algoritmo gli dirà che probabilmente dovrebbe andare avanti. Se è bravo, l'algoritmo gli dirà di continuare ad imparare quel campo.

Incontri è anche un buon campo:

Sei un uomo che stai facendo molti "sforzi" per inseguire una donna. Tuttavia, i tuoi sforzi sono sicuramente non accolti. L'algoritmo dovrebbe "leggermente" (o fortemente) spingerti ad andare avanti.

Per quali altre situazioni di vita reale possiamo usare l'algoritmo bandito multi-braccio?

PS: se la domanda è troppo ampia, lascia un commento. Se c'è un consenso, rimuoverò la mia domanda.


3
Dato che ci sono 3 risposte votate (finora), non penso che questo sia troppo ampio per essere responsabile.
gung - Ripristina Monica

@gung Ho più voti e, tuttavia, non si riflettono sul mio punteggio. Come mai?
Andy K,

5
Questo perché questo thread è wiki della comunità (CW), @AndyK. Quando un thread è CW, le persone non ottengono la reputazione dai voti positivi (o lo perdono dai voti negativi). Tuttavia, guadagneresti distintivi normalmente. Domande come questa che sollecitano elenchi di cose e dove non esiste un'unica risposta chiara e corretta dovrebbero essere fuori tema sui siti SE. Il nostro compromesso (credo che anche altri siti lo facciano) è quello di consentire tali domande caso per caso, ma di renderle CW.
gung - Ripristina Monica

abbastanza discreto @gung
Andy K

1
ammissioni al college. Selezione delle metriche per la selezione dei destinatari per gli organi donati.
EngrStudent - Ripristina Monica il

Risposte:


8

Quando giochi ai giochi Pokemon originali (rosso o blu e giallo) e arrivi nella città di Celadon, le slot machine del Team Rocket hanno probabilità diverse. Bandit multi-braccio proprio lì se vuoi ottimizzare ottenere quel Porygon molto velocemente.

In tutta serietà, le persone parlano del problema con la scelta delle variabili di ottimizzazione nell'apprendimento automatico. Soprattutto se si hanno molte variabili, si parla di esplorazione e sfruttamento. Vedi come Spearmint o anche il nuovo articolo in questo argomento che utilizza un algoritmo semplicissimo per scegliere i parametri di ottimizzazione (e supera di gran lunga le altre tecniche delle variabili di ottimizzazione)


6

Possono essere utilizzati in un trattamento biomedico / impostazione del progetto di ricerca. Ad esempio, credo che gli algoritmi di q-learning siano utilizzati in prove sequenziali, assegnazioni multiple, prove casuali ( prove SMART ). Liberamente, l'idea è che il regime terapeutico si adatti in modo ottimale ai progressi compiuti dal paziente. È chiaro come questo potrebbe essere il migliore per un singolo paziente, ma può anche essere più efficiente negli studi clinici randomizzati.


Grazie @gung. Non sapevo di quell'algoritmo. Ne avrò una lettura
Andy K,


2

Ho fatto la stessa domanda su Quora

Ecco la risposta

  • Allocazione di finanziamenti per diversi dipartimenti di un'organizzazione

  • Scegliere atleti con le migliori prestazioni da un gruppo di studenti con un tempo limitato e una soglia di selezione arbitraria

  • Massimizzare i guadagni del sito Web mentre testando contemporaneamente nuove funzionalità (al posto del test A / B) È possibile utilizzarle ogni volta che è necessario ottimizzare i risultati quando non si dispone di dati sufficienti per creare un modello statistico rigoroso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.