Esiste sicuramente un modo per introdurre ciò che molti chiamano apprendimento rinforzato in applicazioni Web, mobili e workstation reali.
Le organizzazioni militari lo fanno, l'industria cinematografica lo fa, le aziende incentrate sul software lo stanno facendo, e l'ho fatto sia per le aziende Fortune 500 che per le piccole imprese. Esistono componenti di apprendimento adattivo in tutti i tipi di componenti di sistema incorporati in sistemi più grandi, che vanno dai robot di riconoscimento facciale FaceBook a Google Translate ai sistemi di riconoscimento di codici postali USPS ai sistemi di volo e controllo del traffico autonomi. Il software di progettazione assistita da computer (CAD) è certamente un obiettivo praticabile.
La base per il rinforzo
Considera una serie di vettori che descrivono eventi. Immagina che siano divisi in due sotto-serie A e B. Una rete neurale (artificiale o biologica) potrebbe essere allenata usando A.
La formazione potrebbe essere supervisionata, il che significa che una delle dimensioni del vettore è considerata l'etichetta e quindi la variabile dipendente da prevedere in modo ottimale. Le altre dimensioni diventano quindi i fatti o i segnali di input e quindi le variabili indipendenti da utilizzare per la previsione. La formazione potrebbe non essere supervisionata utilizzando l'estrazione delle funzionalità.
Ad ogni modo, quando viene fornito con A prima di B e si prevede che si esibirà in produzione (uso reale) prima dell'arrivo di B, l'arrivo successivo di B presenta una scelta.
- Cancella i pesi e tutte le regolazioni dei meta-parametri effettuate durante l'allenamento con A e riesegui l'allenamento con le serie concatenate di A e B.
- Continua l'allenamento con B, nel qual caso la rete sarebbe distorta con A e il risultato differirebbe dal risultato ottenuto dall'allenamento con B quindi A.
- Trova un modo per limitare il pregiudizio di esserti allenato per la prima volta con A evitando il consumo di risorse necessario per la scelta n. 1 sopra.
La scelta n. 3 è la scelta migliore in molti casi perché contiene i vantaggi delle scelte n. 1 e n. 2. Matematicamente, il n. 3 viene fatto facilitando in qualche modo la anticipazione di ciò che è stato appreso dalla serie A. I pesi della rete neurale e le regolazioni dei meta-parametri devono essere suscettibili alla correzione poiché nuove esperienze indicano la necessità di farlo. Un approccio ingenuo può essere formulato matematicamente la funzione esponenziale inversa, che modella il decadimento naturale in molti fenomeni di fisica, chimica e scienze sociali.
P = e -nt , dove P è la probabilità che il fatto sia ancora efficace, n è il tasso di decadimento delle informazioni apprese in passato e t è una misura del progresso in avanti, come timestamp, numero di sotto-sequenza (batch), numero sequenza fatti o numero evento.
Nel caso delle sottoserie A e B, quando la formula sopra è implementata in qualche modo nel meccanismo di apprendimento, l'allenamento di A porrà meno distorsione sul risultato finale dopo l'allenamento continuato usando B perché la t per A è inferiore rispetto alla t per B, dicendo al meccanismo che B è più probabilmente pertinente.
Se dividiamo ricorsivamente A e B a metà, creando sotto-serie sempre più granulari, l'idea di cui sopra di lasciare gradualmente il decadimento delle informazioni precedenti rimane valida e preziosa. La distorsione della rete alle prime informazioni utilizzate per l'allenamento è l'equivalente dei concetti psicologici di ristrettezza mentale. I sistemi di apprendimento che si sono evoluti nel cervello dei mammiferi sembrano dimenticare o perdere interesse per le cose passate per incoraggiare l'apertura mentale, che non è altro che lasciare che il nuovo apprendimento a volte impedisca l'apprendimento precedente se la nuova informazione contiene modelli più forti per l'apprendimento.
Esistono DUE motivi per consentire ai dati di esempio più recenti di superare progressivamente i dati di esempio più vecchi.
- La rimozione di cui sopra della propensione dell'apprendimento precedente a ponderare adeguatamente gli eventi più recenti nell'ulteriore apprendimento ha senso se tutti gli eventi vissuti (addestrati) rappresentano fatti ragionevoli sul mondo esterno che il sistema sta tentando di apprendere.
- Il mondo esterno potrebbe cambiare e l'apprendimento più vecchio potrebbe effettivamente diventare irrilevante o addirittura fuorviante.
Questa necessità di far decadere gradualmente l'importanza della precedente informazione man mano che l'apprendimento continua è uno dei due aspetti principali del rafforzamento. Il secondo aspetto è un insieme di concetti correttivi basati sull'idea della segnalazione di feedback.
Feedback e rinforzo
Un segnale di feedback nell'apprendimento rafforzato è l'apprendimento automatico equivalente a concetti psicologici familiari come dolore, piacere, appagamento e benessere. Al sistema di apprendimento vengono fornite informazioni per guidare la formazione oltre l'obiettivo dell'estrazione delle caratteristiche, l'indipendenza dei gruppi o la ricerca di una matrice di peso netto neurale che approssima la relazione tra le caratteristiche degli eventi di input e le loro etichette.
Le informazioni fornite possono provenire internamente dal riconoscimento di schemi pre-programmati o esternamente da ricompensa e punizione, come nel caso dei mammiferi. Le tecniche e gli algoritmi sviluppati nell'ambito dell'apprendimento automatico potenziato utilizzano frequentemente questi segnali aggiuntivi (utilizzando la suddivisione del tempo nell'elaborazione) o utilizzando continuamente l'indipendenza delle unità di elaborazione delle architetture di elaborazione parallele.
Questo lavoro è stato lanciato al MIT da Norbert Wiener e presentato nel suo libro Cybernetics (MIT Press 1948). La parola cibernetica deriva da una parola più antica che significa guidare le navi . Il movimento automatico di un timone per rimanere in rotta potrebbe essere stato il primo sistema di feedback meccanico. Il motore del tuo tosaerba probabilmente ne ha uno.
Applicazioni e apprendimento adattivi
Il semplice adattamento in tempo reale per una posizione del timone o un acceleratore del rasaerba non sta imparando. Tale adattamento è generalmente una forma di controllo PID lineare. La tecnologia di machine learning che si sta espandendo oggi abbraccia la valutazione e il controllo di sistemi complessi e non lineari che i matematici chiamano caotici.
Per caotico, non significano che i processi descritti siano frenetici o disorganizzati. I caotici hanno scoperto decenni fa che semplici equazioni non lineari possono portare a comportamenti altamente organizzati. Ciò che significano è che il fenomeno è troppo sensibile a lievi modifiche per trovare un algoritmo o una formula fissi per prevederli.
La lingua è così. La stessa affermazione affermata con una dozzina di diverse inflessioni vocali può significare una dozzina di cose diverse. La frase inglese "Davvero" è un esempio. È probabile che le tecniche di rinforzo consentiranno alle macchine future di distinguere con elevate probabilità di successo tra i vari significati di tale affermazione.
Perché Games First?
I giochi hanno un set molto semplice e facilmente definibile di possibili scenari. Uno dei maggiori contributori all'avvento del computer, John von Neumann, ha sostenuto Teoria dei giochi e del comportamento economico , un libro che ha scritto insieme a Oskar Morgenstern, secondo il quale tutta la pianificazione e il processo decisionale sono in realtà giochi di varie complessità.
Considera i giochi come l'insieme di esempi di addestramento della raccolta di cervelli che, nel tempo, creeranno sistemi in grado di determinare il significato di un'affermazione che le persone istruite possono trarre da tre fonti di suggerimenti.
- Contesto all'interno di una conversazione o di uno scenario sociale
- Le inflessioni vocali di chi parla
- Le espressioni facciali e il linguaggio del corpo di chi parla
Beyond Chess e The Game of Go
Lungo il percorso dai giochi ai sistemi linguistici con una comprensione accurata e capacità di ascolto più profondo, ci sono diverse applicazioni di apprendimento rinforzato che sono di importanza molto maggiore per la terra e l'esperienza umana.
- Sistemi che imparano a spegnere o attenuare luci, elettrodomestici, sistemi digitali, HVAC e altri dispositivi che consumano energia - L'energia è forse la merce più influente geo-politicamente nella storia umana a causa dell'esaurimento delle risorse di combustibili fossili nel tempo.)
- Sviluppo di veicoli autonomi - La tendenza pericolosa del funzionamento di attrezzature pesanti, come aeromobili, camper, camion, autobus e rimorchi per trattori da parte di persone in stati d'animo sconosciuti su strade aperte, sarà probabilmente considerata dalla gente futura come pazzia.
- La valutazione dell'affidabilità delle informazioni - Le informazioni sono ovunque e oltre il 99% è in errore, parzialmente o completamente. Pochissimo è autenticato da ricerche reali, o studi randomizzati in doppio cieco adeguatamente progettati e interpretati o prove e analisi di laboratorio confermabili.
- Applicazioni sanitarie che diagnosticano meglio, adattano i rimedi all'individuo e aiutano con cure continue per evitare la ricorrenza.
Questi quattro e molti altri sono molto più importanti dell'accumulo di ricchezza attraverso il trading automatico ad alta velocità o le competizioni di gioco vincenti, due interessi auto-centrati sull'apprendimento automatico che incidono semplicemente su una o due generazioni della famiglia di una sola persona.
Ricchezza e fama sono ciò che nella teoria dei giochi è chiamato un gioco a somma zero . Producono tante perdite quante sono le vincite se si considera la più alta filosofia della Regola d'oro secondo cui gli altri e le loro famiglie sono ugualmente importanti per noi.
Apprendimento rinforzato per software CAD (Computer Aided Design)
Il design assistito dal computer è il precursore naturale del design del computer (senza aiuti umani), così come le rotture antibloccaggio portano naturalmente a veicoli completamente autonomi.
Considera il comando "Creami un portasapone per la mia doccia che massimizzi la probabilità che la mia famiglia possa afferrare il sapone al primo tentativo senza aprire gli occhi e minimizza la difficoltà di mantenere il sapone e le superfici della doccia pulite. Ecco le altezze di i miei familiari e alcune foto dello spazio della doccia ". Quindi una stampante 3D fa fuoriuscire il dispositivo, pronto per essere collegato, insieme alle istruzioni di installazione.
Ovviamente, un tale sistema CD (CAD senza A) dovrebbe essere addestrato per le pulizie, il comportamento umano senza visione, i modi di attaccare gli oggetti alle piastrelle, gli strumenti e le capacità di manutenzione della casa del consumatore medio, le capacità della stampante 3D e molte altre cose.
Tali sviluppi nell'automazione della produzione probabilmente inizierebbero con l'apprendimento rafforzato di comandi più semplici come "Collegare queste due parti usando dispositivi di fissaggio e buone pratiche prodotti in serie". Il programma CAD avrebbe quindi scelto l'hardware tra viti, rivetti, adesivi e altre opzioni, forse ponendo domande al progettista sulla temperatura operativa e sui campi di vibrazione. La scelta, la posizione e l'angolo verrebbero quindi aggiunti all'insieme appropriato di parti CAD, disegni di assemblaggio e distinte materiali.