Apprendimento supervisionato, apprendimento non supervisionato e apprendimento di rinforzo: nozioni di base sul flusso di lavoro


30

Apprendimento supervisionato

  • 1) Un essere umano crea un classificatore basato su dati di input e output
  • 2) Quel classificatore è addestrato con un set di dati di addestramento
  • 3) Quel classificatore viene testato con un set di dati di test
  • 4) Distribuzione se l' output è soddisfacente

Da utilizzare quando, "So come classificare questi dati, ho solo bisogno di te (il classificatore) per ordinarli".

Punto di metodo: classificare le etichette o produrre numeri reali

Apprendimento senza supervisione

  • 1) Un essere umano crea un algoritmo basato sui dati di input
  • 2) Tale algoritmo viene testato con un set di dati di test (in cui l'algoritmo crea il classificatore)
  • 3) Distribuzione se il classificatore è soddisfacente

Da utilizzare quando "Non ho idea di come classificare questi dati, puoi (l'algoritmo) creare un classificatore per me?"

Punto di metodo: classificare le etichette o prevedere (PDF)

Insegnamento rafforzativo

  • 1) Un essere umano crea un algoritmo basato sui dati di input
  • 2) Quell'algoritmo presenta uno stato dipendente dai dati di input in cui un utente premia o punisce l'algoritmo tramite l' azione intrapresa dall'algoritmo, questo continua nel tempo
  • 3) Quell'algoritmo impara dalla ricompensa / punizione e si aggiorna da sé, questo continua
  • 4) È sempre in produzione, ha bisogno di apprendere dati reali per poter presentare azioni dagli stati

Da utilizzare quando "Non ho idea di come classificare questi dati, puoi classificare questi dati e ti darò una ricompensa se è corretta o ti punirò se non lo è."

È questo il tipo di flusso di queste pratiche, sento molto parlare di ciò che fanno, ma le informazioni pratiche ed esemplari sono spaventosamente piccole!


Mi è piaciuto molto il modo in cui hai presentato la tua domanda. Ho trovato utile questa risposta: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh,

Risposte:


3

Questa è un'introduzione molto bella e compatta alle idee di base!

Insegnamento rafforzativo

Penso che la descrizione del tuo caso d'uso dell'apprendimento per rinforzo non sia esattamente corretta. Il termine classificare non è appropriato. Una descrizione migliore sarebbe:

Non so come comportarmi in questo ambiente , riesci a trovare un buon comportamento e nel frattempo ti darò un feedback .

In altre parole, l'obiettivo è piuttosto controllare qualcosa di buono, piuttosto che classificare qualcosa di buono.

Ingresso

  • L' ambiente che è definito da
    • tutti gli stati possibili
    • possibili azioni negli stati
  • La funzione di ricompensa dipende dallo stato e / o dall'azione

Algoritmo

  • L'agente
    • è in uno stato
    • esegue un'azione per trasferire in un altro stato
    • ottiene una ricompensa per l'azione nello stato

Produzione

  • L'agente vuole trovare una politica ottimale che massimizzi la ricompensa

2

Disclaimer: non sono un esperto e non ho mai fatto nulla con l'apprendimento per rinforzo (ancora), quindi qualsiasi feedback sarebbe il benvenuto ...

Ecco una risposta che aggiunge alcune piccole note matematiche al tuo elenco e alcuni pensieri diversi su quando usare cosa. Spero che l'enumerazione sia abbastanza esplicativa:

supervisionato

  1. Abbiamo dataD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Cerchiamo un modello che minimizzi una misura di perdita / costo per tutti i puntigL(yi,g(xi))0i<l
  3. Valutiamo il modello calcolando la perdita / costo per il resto dei dati ( ) al fine di avere un'idea di quanto bene il modello generalizzil i nLlin

Possiamo dare esempi, ma non possiamo dare un algoritmo per passare da input a output

Impostazione per classificazione e regressione

unsupervised

  1. Abbiamo datiD={x0,x1,,xn}
  2. Cerchiamo un modello che ci dia un'idea dei nostri dati.g
  3. Non abbiamo quasi nessuna misura per dire se abbiamo fatto qualcosa di utile / interessante

Abbiamo alcuni dati, ma non abbiamo idea di dove iniziare a cercare cose utili / interessanti

Impostazione per clustering, riduzione della dimensionalità, ricerca di fattori nascosti, modelli generativi, ecc.

Rinforzo

  1. Non abbiamo dati
  2. Costruiamo un modello che genera dati (spesso chiamati azioni), che può essere basato su misurazioni e / o azioni precedenti, nel tentativo di massimizzare alcune misure di ricompensa , che generalmente non è noto al modello (deve anche essere appreso).x igxiR(xi)
  3. Valutiamo per mezzo della funzione di ricompensa dopo aver avuto un po 'di tempo per imparare.

Non abbiamo idea di come fare qualcosa, ma possiamo dire se è stato fatto nel modo giusto o sbagliato

Ciò sembra particolarmente utile per le attività di decisione sequenziali.

Riferimenti:
Si, J., Barto, A., Powell, W. e Wunsch, D. (2004) Reinforcement Learning e la sua relazione con l'apprendimento supervisionato, nel Manuale di apprendimento e programmazione dinamica approssimativa, John Wiley & Sons, Inc., Hoboken, New Jersey, Stati Uniti. doi: 10.1002 / 9780470544785.ch2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.