Se i valori digitali sono semplici stime, perché non tornare all'analogico per l'IA?


18

L'impulso alla base della transizione del XX secolo dalla circuiteria analogica a quella digitale è stato guidato dal desiderio di maggiore precisione e riduzione del rumore. Ora stiamo sviluppando software in cui i risultati sono approssimativi e il rumore ha un valore positivo.

  • Nelle reti artificiali, usiamo i gradienti (giacobiano) o i modelli di secondo grado (iuta) per stimare i passi successivi in ​​un algoritmo convergente e definire livelli accettabili di inesattezza e dubbio. 1
  • Nelle strategie di convergenza, aggiungiamo deliberatamente rumore iniettando perturbazioni casuali o pseudo casuali per migliorare l'affidabilità essenzialmente facendo saltare i minimi locali nella superficie di ottimizzazione durante la convergenza. 2

Ciò che accettiamo e introduciamo deliberatamente negli attuali sistemi di intelligenza artificiale sono le stesse cose che hanno portato l'elettronica ai circuiti digitali.

Perché non tornare ai circuiti analogici per le reti neurali e implementarli con matrici di amplificatori operazionali invece di matrici di elementi di elaborazione del segnale digitale?

I valori dei parametri di apprendimento della rete artificiale possono essere mantenuti utilizzando condensatori integrati caricati tramite convertitori D-to-A in modo tale che gli stati appresi possano beneficiare dell'accuratezza e della convenienza digitali, mentre la propagazione diretta trae vantaggio dai vantaggi analogici.

  • Maggiore velocità 3
  • Ordini di grandezza meno transistor per rappresentare celle di rete
  • Rumore termico naturale 4

Un articolo accademico o una ricerca di brevetti per reti artificiali analogiche rivela molto lavoro negli ultimi quarant'anni e la tendenza della ricerca è stata mantenuta. I circuiti analogici computazionali sono ben sviluppati e forniscono una base per array neurali.

L'attuale ossessione per il calcolo digitale potrebbe offuscare la visione comune delle opzioni di architettura AI?

L'analogo ibrido è l'architettura superiore per le reti artificiali?

 


Le note

[1] Il quadro di apprendimento PAC (probabilmente approssimativamente corretto) mette in relazione l'errore accettabile ε e il dubbio accettabile δ con la dimensione del campione richiesta per l'apprendimento per tipi di modello specifici. (Si noti che 1-ε rappresenta la precisione e 1-δ rappresenta la fiducia in questo quadro.)

[2] Viene mostrata la discesa stocastica del gradiente, quando vengono utilizzate strategie e iperparametri appropriati, per convergere più rapidamente durante l'apprendimento e sta diventando una buona pratica nelle tipiche applicazioni del mondo reale delle reti artificiali.

[3] Il processore Intel Core i9-7960X funziona a velocità turbo di 4,2 GHz, mentre la trasmissione standard a satellite fisso è di 41 GHz.

[4] Il rumore termico può essere ottenuto sul silicio amplificando e filtrando la perdita di elettroni attraverso un diodo zener polarizzato inverso nel suo punto di valanga. La fonte dei fenomeni quantistici è il rumore termico di Johnson – Nyquist. Sanguinetti et. al. nella loro "Generazione di numeri casuali quantistici su un telefono cellulare" (2014), "Un rivelatore può essere modellato come un canale con perdita con una probabilità di trasmissione η seguito da un convertitore da fotone a elettrone con efficienza dell'unità ... la distribuzione misurata sia la combinazione di incertezza quantistica e rumore tecnico ", e c'è il lavoro JTWPA di CalTech. Entrambi possono diventare standard per la produzione di rumore quantico veramente non deterministico nei circuiti integrati.

Riferimenti


1
Direi che sei su qualcosa. Ci sono alcuni sforzi per mettere l'AI in chip analogici (penso che Apple potrebbe fare qualcosa con iPhone). Non sono sicuro di quanta ricerca sia stata fatta, ma sono sicuro che puoi trovare del white paper da qualche parte. Vale sicuramente la pena ricercare. La mia previsione è che presto potrebbero esserci chip AI programmabili che hanno un determinato numero di ingressi e uscite (Kinda come i registri del bus).
Zakk Diaz,

Non è una risposta completa, ma sospetto che il problema principale sia il costo. I circuiti di stampa sono estremamente economici su scala e sono ancora piuttosto costosi in piccoli lotti. Le GPU discrete sono già prodotte in serie e funzionano "abbastanza bene". Un chip analogico di solito può svolgere bene solo un compito e i modelli preferiti cambiano rapidamente. Un chip discreto può essere programmato per fare molte cose diverse. Se troviamo una "migliore" topologia per le ANN, forse sarà logico creare nuovamente chip analogici.
John Doucette,

1
Wow. Il mio primo giorno su questo sito e ho trovato qualcuno che condivide un pensiero con me. :-D

Risposte:


6

Penso che ci siano varie ragioni. Prima di tutto: flessibilità. Con le moderne CPU e GPU puoi costruire praticamente ogni modello AI che desideri e in ogni dimensione e complessità che desideri. Come puoi essere sicuro che il modello che stai utilizzando sia ancora adatto tra qualche anno? Forse ci sarà un importante passo avanti nelle NN nei prossimi anni? Forse alcuni scienziati hanno scoperto che esiste un modo migliore per sviluppare un'intelligenza artificiale rispetto a NN, algoritmi genetici ecc. I chip normali possono gestirli tutti e possono gestirli abbastanza bene. Ma se vuoi ottimizzarlo e non preoccuparti del denaro, puoi sviluppare un'architettura specializzata (questo è già stato fatto da diverse aziende, il che dà un grande impulso alla velocità su compiti specifici).

Motivo numero due: produzione in serie. Voglio dire, le aziende alla fine potrebbero produrre componenti AI analogici altamente integrati (diciamo, ad esempio, chip NN). Ma sarebbe un investimento maggiore. Non è abbastanza chiaro se unità sufficientemente flessibili da costituire una seria alternativa hardware AI, possano essere facilmente prodotte in una produzione di massa in grado di competere con CPU e GPU. Soprattutto questi ultimi sono altamente ottimizzati per eseguire calcoli paralleli di massa. E, se osservi lo sviluppo di architetture simili a GPU (puoi fare poche cose, ma quelle molto bene) che sono ottimizzate in modo aggiuntivo per l'apprendimento maschine, puoi vedere che sarebbe una dura concorrenza per le unità analogiche.

Tutto quanto sopra non significa che non ci siano ricerche in questo settore. Esistono diversi esperimenti che tentano di archiviarlo, ma non sono ancora "pericolosi" per le architetture comuni. Alla fine arriveranno in futuro, quando capiremo meglio l'intelligenza artificiale e l'intelligenza in generale e stiamo solo cercando di modificare, ma sono piuttosto scettico al riguardo.

EDIT: Inoltre, qualcosa che appartiene anche alla flessibilità: puoi sperimentare meglio con gli algoritmi AI in esecuzione su hardware digitale "normale". Ad esempio, puoi facilmente ispezionare un NN in determinate posizioni, puoi modificare rapidamente i dati di input o fornire quelli alternativi, in realtà non sei legato a nulla. E poiché non conosciamo o capiamo completamente ogni modello, quando usare quali, se ci sono architetture migliori per un determinato compito ecc., Non ha senso mettere qualcosa di "giovane" e "sperimentale" in un analogo fisso architettura.


Sebbene l'economia di scala (puro volume di produzione) favorisca il digitale oggi, non lo ha fatto negli anni '80 e molti non negli anni '40. L'analogo è più economico con il transistor. Esistono 128.000 transistor in un core CUDA per thread e solo 40 transistor in un amplificatore operazionale multiplexato. Ancora più importante, la domanda è teorica - ciò che ha più senso tecnologico - non ciò che è economico allo stato attuale dell'economia VLSI. Se c'è qualche modello che possiamo vedere nella tecnologia negli ultimi 100 anni è che la normalità di oggi è il pezzo da museo di domani. - La lettura dei requisiti di generosità può essere d'aiuto.
FauChristian,

Ma non è un po 'simile in questo scenario? Sviluppare in maniera massiccia quell'hardware NOW non avrebbe senso economico, ma neanche tecnologico. Non ne sappiamo abbastanza.
Ben

Se "noi" è l'abbonamento AI Stack Exchange, c'è una forte tendenza verso ciò che è già stato implementato nelle librerie Python popolari. Ma i governi e le grandi aziende sembrano essere interessati anche alle reti di spiking e ai VLSI analogici, ad esempio USAF e Intel. I laboratori di robotica spingono verso l'analogico, e i ricercatori neuro-cogitivi considerano le ANN non degne del N centrale. I neuroni reali sono migliaia di volte più complessi di una funzione ReLU. Ciò che emergerà come dominante per quale applicazione non è chiara, ma non è la stessa cosa che non si sa abbastanza per discutere delle opzioni.
FauChristian,

Potresti aver letto la parola "puro" nella domanda. Nessuna delle ricerche in corso suggerisce un analogo puro, con quadranti anziché tastiere e CRT anziché LCD. Tutte le recenti proposte in letteratura e nello sviluppo attivo di VLSI seguono un paradigma ben compreso: simulare un analogo programmabile (non fisso) che può apprendere il programma come possono fare le reti artificiali digitali, quindi realizzare in silicio, senza rimuovere la programmabilità o la capacità di apprendimento. I segnali in tempo reale possono essere analogici, digitali o entrambi, ma il controllo complessivo del chip è digitale, come con una GPU o DSP.
FauChristian,

Il periodo di ricompensa finirà presto e in questa risposta non è ancora chiaro se l'apprendimento analogico abbia senso perché può sfruttare il rumore quantico facilmente disponibile. La previsione non era indicata dalla domanda. Inoltre, l'enorme budget che sembra essere mirato al calcolo analogico di percetroni, convoluzione e reti di spiking può benissimo prevalere, ma solo se la redditività a lungo termine è razionale. Quindi la domanda.
FauChristian,

6

Risposta rapida

Quando Intel ha acquisito Nirvana, hanno indicato la loro convinzione che il VLSI analogico abbia il suo posto nei chip neuromorfi del prossimo futuro 1, 2, 3 .

Non è ancora pubblico se fosse a causa della capacità di sfruttare più facilmente il rumore quantico naturale nei circuiti analogici. È più probabile a causa del numero e della complessità delle funzioni di attivazione parallele che possono essere raggruppate in un singolo chip VLSI. A tale proposito, Analog ha un vantaggio in ordine di grandezza rispetto al digitale.

È probabilmente vantaggioso per i membri di AI Stack Exchange arrivare rapidamente a questa evoluzione della tecnologia fortemente indicata.

Tendenze importanti e non tendenze dell'IA

Per affrontare scientificamente questa domanda, è meglio contrastare la teoria del segnale analogico e digitale senza la tendenza delle tendenze.

Gli appassionati di intelligenza artificiale possono trovare molto sul web sull'apprendimento profondo, l'estrazione delle caratteristiche, il riconoscimento delle immagini e le librerie software da scaricare e iniziare immediatamente a sperimentare. È il modo in cui la maggior parte si bagna i piedi con la tecnologia, ma anche l'introduzione rapida dell'IA ha il suo lato negativo.

Quando le basi teoriche delle prime implementazioni di successo dell'intelligenza artificiale rivolte al consumatore non sono comprese, si ipotizzano conflitti in conflitto con tali basi. Le opzioni importanti, come i neuroni artificiali analogici, le reti a spillo e il feedback in tempo reale, vengono ignorate. Il miglioramento di forme, capacità e affidabilità è compromesso.

L'entusiasmo per lo sviluppo della tecnologia dovrebbe essere sempre temperato con almeno una misura uguale di pensiero razionale.

Convergenza e stabilità

In un sistema in cui l'accuratezza e la stabilità sono raggiunte tramite feedback, i valori dei segnali sia analogici che digitali sono sempre solo stime.

  • Valori digitali in un algoritmo convergente o, più precisamente, una strategia progettata per convergere
  • Valori del segnale analogico in un circuito amplificatore operazionale stabile

Comprendere il parallelo tra la convergenza attraverso la correzione degli errori in un algoritmo digitale e la stabilità ottenuta attraverso il feedback nella strumentazione analogica è importante nel pensare a questa domanda. Questi sono i parallelismi usando il gergo contemporaneo, con digitale a sinistra e analogico a destra.

┌───────────────────────────────┬───────────────── ─────────────┐
│ * Reti artificiali digitali * │ * Reti artificiali analogiche * │
├───────────────────────────────┼───────────────── ─────────────┤
│ Propagazione diretta │ Percorso del segnale primario │
├───────────────────────────────┼───────────────── ─────────────┤
│ Funzione errore │ Funzione errore │
├───────────────────────────────┼───────────────── ─────────────┤
│ Convergente │ Stabile │
├───────────────────────────────┼───────────────── ─────────────┤
│ Saturazione del gradiente │ Saturazione sugli ingressi │
├───────────────────────────────┼───────────────── ─────────────┤
│ Funzione di attivazione │ Funzione di trasferimento in avanti │
└───────────────────────────────┴───────────────── ─────────────┘

Popolarità dei circuiti digitali

Il fattore principale nell'aumento della popolarità del circuito digitale è il suo contenimento del rumore. I circuiti digitali VLSI odierni hanno tempi medio lunghi di guasto (tempo medio tra le istanze quando viene rilevato un valore di bit errato).

L'eliminazione virtuale del rumore ha dato alla circuiteria digitale un vantaggio significativo rispetto alla circuiteria analogica per la misurazione, il controllo PID, il calcolo e altre applicazioni. Con i circuiti digitali, si potrebbe misurare con cinque cifre decimali di accuratezza, controllare con notevole precisione e calcolare π con migliaia di cifre decimali di precisione, ripetibilmente e in modo affidabile.

Sono stati principalmente i budget per l'aeronautica, la difesa, la balistica e le contromisure che hanno aumentato la domanda di produzione per raggiungere l'economia di scala nella produzione di circuiti digitali. La richiesta di risoluzione del display e velocità di rendering sta guidando l'uso della GPU come processore di segnale digitale ora.

Queste forze in gran parte economiche stanno causando le migliori scelte progettuali? Le reti artificiali su base digitale sono il miglior uso di preziosi immobili VLSI? Questa è la sfida di questa domanda, ed è buona.

Realtà della complessità IC

Come menzionato in un commento, sono necessarie decine di migliaia di transistor per implementare in silicio un neurone di rete artificiale indipendente e riutilizzabile. Ciò è in gran parte dovuto alla moltiplicazione della matrice vettoriale che porta a ciascun livello di attivazione. Ci vogliono solo poche decine di transistor per neurone artificiale per implementare una moltiplicazione a matrice vettoriale e l'array di amplificatori operazionali dello strato. Gli amplificatori operazionali possono essere progettati per eseguire funzioni come step binario, sigmoid, soft plus, ELU e ISRLU.

Rumore del segnale digitale da arrotondamento

La segnalazione digitale non è priva di rumore poiché la maggior parte dei segnali digitali è arrotondata e quindi approssimazioni. La saturazione del segnale nella retro-propagazione appare prima come il rumore digitale generato da questa approssimazione. Ulteriore saturazione si verifica quando il segnale è sempre arrotondato alla stessa rappresentazione binaria.

veKnN è il numero di bit nella mantissa.

v=Σn=0N1n2K+e+N-n

I programmatori a volte incontrano gli effetti dell'arrotondamento in numeri in virgola mobile IEEE a precisione doppia o singola quando le risposte che dovrebbero essere 0,2 appaiono come 0,20000000000001. Un quinto non può essere rappresentato con assoluta precisione come numero binario perché 5 non è un fattore 2.

Science Over Media Hype e tendenze popolari

E=mc2

Nell'apprendimento automatico come con molti prodotti tecnologici, ci sono quattro parametri di qualità chiave.

  • Efficienza (che guida la velocità e l'economia di utilizzo)
  • Affidabilità
  • Precisione
  • Comprensibilità (che guida la manutenibilità)

A volte, ma non sempre, il raggiungimento di uno ne compromette un altro, nel qual caso deve essere raggiunto un equilibrio. La discesa gradiente è una strategia di convergenza che può essere realizzata in un algoritmo digitale che equilibra perfettamente questi quattro, motivo per cui è la strategia dominante nell'allenamento percettrone multistrato e in molte reti profonde.

Queste quattro cose sono state fondamentali per i primi lavori di cibernetica di Norbert Wiener prima dei primi circuiti digitali in Bell Labs o del primo infradito realizzato con tubi a vuoto. Il termine cibernetica deriva dal greco κυβερνήτης (pronuncia kyvernítis ) che significa timoniere, dove timone e vele dovevano compensare il costante cambiamento di vento e corrente e la nave doveva convergere sul porto o sul porto previsto.

La visione orientata alla tendenza di questa domanda potrebbe circondare l'idea se VLSI possa essere realizzato per raggiungere l'economia di scala per le reti analogiche, ma i criteri forniti dal suo autore sono di evitare le viste guidate dalla tendenza. Anche se così non fosse, come menzionato sopra, sono necessari molti meno transistor per produrre strati di rete artificiale con circuiti analogici rispetto a quelli digitali. Per tale motivo, è legittimo rispondere alla domanda ipotizzando che l'analogo VLSI sia fattibile a costi ragionevoli se l'attenzione fosse diretta a realizzarlo.

Progettazione di reti artificiali analogiche

Reti artificiali analogiche sono in fase di studio in tutto il mondo, tra cui la joint venture IBM / MIT, Intel Nirvana, Google, US Air Force già nel 1992 5 , Tesla e molti altri, alcuni indicati nei commenti e nell'addendum a questo domanda.

L'interesse per l'analogico per le reti artificiali ha a che fare con il numero di funzioni di attivazione parallele coinvolte nell'apprendimento che si adattano a un millimetro quadrato di proprietà immobiliari con chip VLSI. Ciò dipende in gran parte da quanti transistor sono necessari. Le matrici di attenuazione (le matrici dei parametri di apprendimento) 4 richiedono una moltiplicazione a matrice vettoriale, che richiede un gran numero di transistor e quindi una porzione significativa di proprietà VLSI.

Ci devono essere cinque componenti funzionali indipendenti in una rete percettronica multistrato di base se deve essere disponibile per un allenamento completamente parallelo.

  1. La moltiplicazione a matrice vettoriale che parametrizza l'ampiezza della propagazione diretta tra le funzioni di attivazione di ciascun livello
  2. La conservazione dei parametri
  3. Le funzioni di attivazione per ogni livello
  4. Conservazione degli output del livello di attivazione da applicare nella retro-propagazione
  5. La derivata delle funzioni di attivazione per ogni livello

Nei circuiti analogici, con il maggiore parallelismo insito nel metodo di trasmissione del segnale, 2 e 4 potrebbero non essere necessari. La teoria del feedback e l'analisi armonica saranno applicate alla progettazione del circuito, usando un simulatore come Spice.

cpc(r)r(t,c)tioiowio τpτun'τd

c=cpc(r(t,c)dt)(Σio=0io-2(τpwiowio-1+τun'wio+τdwio)+τun'wio-1+τdwio-1)

Per i valori comuni di questi circuiti negli attuali circuiti integrati analogici, abbiamo un costo per i chip VLSI analogici che convergono nel tempo a un valore di almeno tre ordini di grandezza inferiore a quello dei chip digitali con un parallelismo di addestramento equivalente.

Indirizzare direttamente l'iniezione di rumore

La domanda afferma: "Stiamo usando gradienti (giacobiano) o modelli di secondo grado (assia) per stimare i passi successivi in ​​un algoritmo convergente e aggiungendo deliberatamente rumore [o] iniettando perturbazioni pseudo casuali per migliorare l'affidabilità della convergenza saltando i pozzi locali nell'errore superficie durante la convergenza ".

Il motivo per cui il rumore pseudo casuale viene iniettato nell'algoritmo di convergenza durante l'addestramento e nelle reti rientranti in tempo reale (come le reti di rinforzo) è a causa dell'esistenza di minimi locali nella superficie della disparità (errore) che non sono i minimi globali di quello superficie. I minimi globali sono lo stato di addestramento ottimale della rete artificiale. I minimi locali potrebbero essere tutt'altro che ottimali.

Questa superficie illustra la funzione di errore dei parametri (due in questo caso altamente semplificato 6 ) e il problema dei minimi locali che nascondono l'esistenza dei minimi globali. I punti bassi della superficie rappresentano i minimi nei punti critici delle regioni locali di convergenza ottimale dell'allenamento. 7,8

Superficie di errore che mostra come si può perdere Global Optimum

Le funzioni di errore sono semplicemente una misura della disparità tra lo stato corrente della rete durante l'addestramento e lo stato desiderato della rete. Durante l'addestramento di reti artificiali, l'obiettivo è quello di trovare il minimo globale di questa disparità. Tale superficie esiste indipendentemente dal fatto che i dati del campione siano etichettati o meno e che i criteri di completamento della formazione siano interni o esterni alla rete artificiale.

Se il tasso di apprendimento è piccolo e lo stato iniziale è all'origine dello spazio dei parametri, la convergenza, usando la discesa del gradiente, converge al pozzo più a sinistra, che è un minimo locale, non il minimo globale a destra.

Anche se gli esperti che inizializzano la rete artificiale per l'apprendimento sono abbastanza intelligenti da scegliere il punto medio tra i due minimi, il gradiente in quel punto si inclina ancora verso il minimo della mano sinistra e la convergenza arriverà a uno stato di allenamento non ottimale. Se l'ottimalità della formazione è fondamentale, come spesso accade, la formazione non riuscirà a raggiungere risultati di qualità della produzione.

Una soluzione in uso è aggiungere entropia al processo di convergenza, che spesso è semplicemente l'iniezione dell'uscita attenuata di un generatore di numeri pseudo casuali. Un'altra soluzione meno usata è quella di ramificare il processo di addestramento e provare l'iniezione di una grande quantità di entropia in un secondo processo convergente in modo che vi sia una ricerca conservativa e una ricerca un po 'selvaggia in parallelo.

È vero che il rumore quantico in circuiti analogici estremamente piccoli ha una maggiore uniformità allo spettro del segnale dalla sua entropia rispetto a un generatore pseudo-casuale digitale e sono necessari molti meno transistor per ottenere un rumore di qualità superiore. Se le sfide di farlo nelle implementazioni VLSI sono state superate, non è ancora stato reso noto dai laboratori di ricerca integrati nei governi e nelle società.

  • Tali elementi stocastici utilizzati per iniettare quantità misurate di casualità per migliorare la velocità e l'affidabilità dell'allenamento saranno adeguatamente immuni al rumore esterno durante l'allenamento?
  • Saranno sufficientemente protetti dalle conversazioni interne?
  • Sorgerà una domanda che ridurrà sufficientemente i costi di produzione di VLSI per raggiungere un punto di maggiore utilizzo al di fuori delle imprese di ricerca altamente finanziate?

Tutte e tre le sfide sono plausibili. Ciò che è certo e anche molto interessante è il modo in cui progettisti e produttori facilitano il controllo digitale dei percorsi dei segnali analogici e le funzioni di attivazione per ottenere un allenamento ad alta velocità.

Le note

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] L'attenuazione si riferisce alla moltiplicazione di un'uscita di segnale da un'attuazione per un perametro addestrabile per fornire un addend da sommare con gli altri per l'ingresso ad un'attivazione di uno strato successivo. Sebbene questo sia un termine di fisica, viene spesso utilizzato in ingegneria elettrica ed è il termine appropriato per descrivere la funzione della moltiplicazione a matrice vettoriale che raggiunge ciò che, in ambienti meno istruiti, viene chiamato ponderazione degli input di livello.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Ci sono molti più di due parametri nelle reti artificiali, ma solo due sono rappresentati in questa illustrazione perché la trama può essere comprensibile solo in 3-D e abbiamo bisogno di una delle tre dimensioni per il valore della funzione di errore.

z=(X-2)2+(y-2)2+60-401+(y-1.1)2+(X-0.9)2-40(1+((y-2.2)2+(X-3.1)2)4)

[8] Comandi gnuplot associati:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

4

Strumentazione digitale delle celle analogiche

Una delle sfide principali nelle reti artificiali analogiche è che la strumentazione di rete sarebbe più pratica se digitale. Qualsiasi implementazione VLSI di percetroni analogici, convoluzioni o reti di spiking dovrà probabilmente avere componenti digitali in una disposizione ibrida per diverse funzioni.

  • Indicatori sanitari
  • Indicatori di guasto
  • Archiviazione e recupero dei parametri appresi 1
  • Controllo globale del sistema
  • Impostazione di iperparametri
  • Statistiche operative
  • Introspezione per sviluppo e debug
  • Punti di rottura
  • verificabilità

Ciò significa che la realizzazione di una rete di apprendimento artificiale analogica per uso generale richiederà la conversione da A a D e da D a A. 2 La sfida di progettazione VLSI diventa quindi evitare l'accumulo di transistor dall'introduzione di un gran numero di blocchi di conversione. Ciò sconfiggerebbe il vantaggio di densità della realizzazione analogica della propagazione avanti e indietro.

La probabile soluzione è quella di utilizzare una matrice di aggancio per distribuire segnali dai convertitori D-A a condensatori e la matrice di commutazione a bassa perdita per selezionare quale valore verrà letto dai convertitori A-D. Questo deve essere fatto senza introdurre rumore digitale nei percorsi analogici e senza degradare le cariche memorizzate o la perdita di precisione nella loro ricarica.

Quanto sia significativo il numero di ulteriori transistor e rotte in un circuito esterno alla rete primaria può essere trovato solo esercitando un processo di progettazione VLSI.

Importanti contributi open source

L'Università del Massachusetts ha introdotto il repository open source BindsNet 3,4 a febbraio 2018. Simula le reti di spiking analogiche con software e hardware digitali e sfrutta l'accelerazione della GPU attraverso PyTorch.

Ciò facilita la sperimentazione odierna nel progettare e sviluppare strategie di rete. Il successo con la simulazione, se abbastanza significativo, porterebbe probabilmente a progetti VLSI superiori.


Le note

[1] In qualsiasi sistema di apprendimento pratico, i parametri appresi devono essere estratti dall'implementazione VLSI, archiviati in un database e resi disponibili a qualsiasi numero di sistemi di sviluppo, test, UAT o di produzione per la distribuzione, l'analisi delle cause alla radice dei difetti, il ridimensionamento e ripristino di emergenza. Il salvataggio e il caricamento devono essere una caratteristica di base delle reti artificiali analogiche ibride VLSI, anche tra epoche durante l'allenamento e durante l'uso effettivo sul campo.

[2] Non è possibile mantenere indefinitamente lo stato appreso di una rete artificiale nei condensatori. Sebbene i condensatori siano diventati il ​​componente passivo dominante per i circuiti analogici progettati in processi CMOS standard, non possono avere molta capacità e la perdita non è zero. L'emivita dei circuiti di memorizzazione capacitivi e l'accuratezza richiesta dei valori dei parametri determineranno la velocità di un ciclo di aggiornamento aggiornato e condizionato.

[3] Repository open source BindsNet

[4] BindsNET [paper]: una libreria di reti neurali orientate all'apprendimento automatico in Python per la pubblicazione Harvard U dell'abstract dall'articolo BindsNet.


4

Sono sorpreso che nessuno abbia menzionato alcune delle direzioni di ricerca specifiche nel campo dell'IA analogica. E anche chiarire l'intelligenza artificiale non è esattamente la stessa di Machine Learning come suggerisce questa risposta . I recenti progressi nel calcolo analogico sono stati solo nel campo dell'apprendimento automatico.

CMOS analogico:

Prima di tutto, parliamo delle prime implementazioni analogiche dei neuroni. Dr.Giacomo Indiveri, et al. Sono stati alcuni dei pionieri nel settore. Sebbene con la logica CMOS è possibile progettare reti neurali spiking con STDP (Spike Time Dependent Plasticity), è difficile utilizzare gli algoritmi di Machine Learning. Il cervello umano deve ancora essere compreso appieno, in particolare come comunica informazioni complesse con picchi. Le reti basate su picchi sono efficaci nell'esecuzione di operazioni di riconoscimento delle immagini relativamente piccole e di bassa complessità (la maggior parte dei documenti sembra essere più preoccupata per il miglioramento delle prestazioni piuttosto che per applicazioni molto complesse). A causa dell'enorme numero di transistor disponibili, potremmo essere in grado di utilizzarlo in compiti complessi.

Il miglior esempio sarebbe Google che sta usando questa idea di bassa precisione nei TPU e precisione di compensazione, usando un numero enorme di unità di elaborazione che sta causando un qualche compromesso tra tempo, precisione e area. Questo può essere analogo all'enorme numero di transistor in un processore, sebbene con bassa precisione. ( Uno sguardo approfondito alla prima unità di elaborazione tensore (TPU) di Google )

NOTA: alcuni potrebbero obiettare che la tecnologia CMOS rientra nel dominio digitale, ma dal momento che qui non stiamo specificamente utilizzando CMOS per eseguire qualsiasi operazione digitale, mi piace pensarla come analogica.

Le attività basate su Spike sono apparentemente abbastanza buone per le reti Win All Take (tipo di mappe auto-organizzate ), quindi è il modo generale di implementare gli algoritmi di Machine Learning nei chip VLSI.

Le reti basate su Spike non hanno una memoria ideale, non puoi avere pesi di alta precisione. Hanno proposto di implementare pesi biologici o sinapsi o memoria usando condensatori, ma apparentemente deve affrontare problemi simili ai normali chip di silicio, come la perdita di carica e anche da altre non idealità basate sul silicio e da quello che ho capito, possono anche modellare pesi limitati ( come -1, 0, 1).

Calcolo digitale:

Qui, arriva il calcolo digitale. Le attività che richiedono un'elevata quantità di rappresentazione in virgola mobile non possono essere semplicemente implementate da picchi, dal momento che non sappiamo ancora o nemmeno siamo in grado di imitare completamente il biofisico o qualsiasi aspetto di un vero neurone per quella materia. Il calcolo digitale aiuta semplicemente a trasmettere più informazioni e con tutta la precisione che vogliamo (se progettiamo una tale CPU). Anche se i colli di bottiglia sono un inconveniente noto dell'architettura di Von Neumann per il calcolo digitale, non è un problema tanto quanto la rappresentazione delle informazioni tramite picchi. I picchi hanno sempre una magnitudine fissa, l'unico modo in cui probabilmente trasmette informazioni è attraverso la sua frequenza e il segno (eccitatorio o inibitorio). Anche le velocità di clock sono piuttosto elevate nei computer moderni.

Memristors: una nuova direzione

Qui arriva l'invenzione più recente, il Memristor . Questo è stato di gran lunga il dispositivo analogico più promettente in Machine Learning. I memristor sono un concetto nuovissimo previsto negli anni '70 e prodotto solo nel 2008, in pratica sono RRAM o RAM resisitive. In questo la resistenza del resistore di memoria o del memristor è direttamente correlata alla storia attuale passata, che è molto simile ai modelli biofisici del neurone. Possono anche essere addestrati facilmente utilizzando array di barre trasversali (fondamentalmente matrice di contatti elettrici) di memristori (gli array di barre trasversali rappresentano matrici di peso, la tensione applicata lungo le file o lungo le colonne determina la propagazione in avanti o la propagazione all'indietro).

Pertanto Memristor offre una vera rotazione analogica agli algoritmi di Machine Learning. Sfortunatamente, a causa del suo recente arrivo, ci sono molti problemi che devono ancora essere risolti.

  • I memristori possono degradarsi abbastanza rapidamente, ovvero hanno cicli di allenamento limitati.
  • I memristor introducono molto rumore, che apparentemente non aiuta nella causa della regolarizzazione come potrebbe pensare un ingegnere ML.
  • TioO2HfO2

Laboratorio di ricerca sulla nanoelettronica, Purdue University

Materiali elettrochimici, ETH Zurigo

Progetto del cervello umano

L'Istituto MARCS per il cervello, il comportamento e lo sviluppo

Fotonica neuromorfica:

Di recente, c'è stato un interesse nel campo della fotonica neuromorfica. Ecco un breve articolo sullo stesso. Non ho familiarità con il funzionamento interno dello stesso, ma AFAIK comporta la trasmissione di informazioni in forma ottica all'interno del chip di elaborazione stesso. Ciò comporta alcuni vantaggi rispetto ai normali circuiti analogici o digitali:

  • Elaborazione più veloce delle informazioni.
  • Maggiore densità di informazioni.
  • Migliore fedeltà dei dati a causa di perdite molto minori.

Nota a margine: alcune delle mie osservazioni sono basate sui fatti mentre altre sono puramente di memoria, quindi potrei sbagliarmi (dato che sono un principiante in questo campo). Sentiti libero di segnalare errori.
Dutta,

2

Credo che molte persone abbiano praticamente risposto diligentemente alla domanda in modo davvero informativo. Vorrei solo dire che usiamo comunemente i circuiti digitali perché questa è la tecnologia esistente e che sicuramente i circuiti analogici sembrano davvero promettenti.

Tuttavia, in questo momento, questa idea non è molto sviluppata nonostante la quantità di ricerche condotte negli anni passati. Finora nessuna azienda ha tentato di implementare l'idea a livello commerciale in cui stanno realizzando tali chip da utilizzare al di fuori dei loro laboratori.

Inoltre, questa idea sembra un nuovo approccio e ha un grande potenziale.

Ma, con la nostra mancanza di comprensione su come funzionano alcuni modelli, alcuni semplicemente non hanno problemi; come reti neurali risolvano davvero problemi così complessi e molte altre cose. Pertanto, è ancora una tecnologia abbastanza distante per raggiungere il suo pieno potenziale.

PS: sono ancora un principiante in questo campo e penso che la mia opinione non conta così, se ero ridondante da qualche parte o non sono riuscito a darti la risposta attesa, allora me ne pento sinceramente.


Questa risposta mostra pensiero. È anche vero che la tecnologia esistente non mostra molti progressi con VLSI analogico programmabile come digitale. ... Ciò che non si conosce è il risultato della ricerca e sviluppo del controllo analogico della Marina americana e DARPA che è stata ampiamente finanziata da decenni. Sono stati declassificati solo i documenti iniziali. L'ICBM e la tecnologia di contromisura possono essere tutti circuiti di intelligenza analogici nella gamma di 100 GHz. O no. ... La tua scrittura non era né ridondante né ingenua. Sicuramente, nell'open source, queste tecnologie stanno appena iniziando a essere viste. Buona risposta. Sentiti libero di lasciarlo così com'è o di svilupparlo ulteriormente.
FauChristian,

2

Si può anche affrontare la questione dall'aspetto della teoria dell'informazione:

Ci sono due trade / off tra cui scegliere:

Informazioni analogiche che possono rappresentare informazioni in un modo più preciso / specifico, ma limitato in quantità.

Informazioni digitali che non rappresentano completamente il mondo reale, ma possono contenere una quantità illimitata di informazioni in pochi bit. Un buon esempio potrebbe essere qualcosa di simile a un incremento per loop:

i = 0
while True:
   print(i)
   i += 1

Quale è più potente allora?


Questo è generalmente vero. Pensa a cosa significa apprendere nel contesto dell'IA. Abbiamo simulato vari tipi di apprendimento nelle macchine tramite sistemi di regole con meta regole, reti artificiali, estensioni alla catena di Markov, logica fuzzy e un'ampia varietà di altre tecniche e architetture. Quando si verifica l'apprendimento, vi è una sorta di comportamento ottimale che l'apprendimento tenta di acquisire. Come possono i sistemi analogici o digitali convergere o tracciare (in tempo reale) quel comportamento ottimale e che ha un vantaggio a lungo termine?
FauChristian,

1

Hava Siegelmann

A prima vista, il calcolo analogico è superiore a quello digitale. I computer quantistici sono più veloci dei computer Von-Neumann e i chip neuromorfi richiedono meno energia rispetto alle CPU Intel. Anche da un punto di vista teorico molti parlano per computer analogici. Hava Siegelmann ha studiato la capacità di super-turing della rete neurale, il che significa che un computer analogico può emulare uno digitale ma non viceversa. Quindi perché non dovremmo usare il calcolo analogico?

Stephen Wolfram

Il motivo ha a che fare con il sistema educativo. La matematica classica che viene insegnata nelle scuole è matematica analogica. Si basa sulle regole delle diapositive, sulla tabella dei logaritmi e sul pensiero nei circuiti. Al contrario, pensare in valori discreti di un algoritmo e descrivere il mondo in zero e in quelli è fondamentale e diverso ci porta a un nuovo tipo di matematica. Stephen Wolfram ha spiegato che la comprensione degli automi cellulari è un passo importante per descrivere l'universo e ha ragione. Ignorare la matematica analogica e preferire linguaggi informatici capaci di turing è un metodo potente in materia di istruzione. Aiuta non solo a familiarizzare con i computer, ma anche con tutte le altre cose come la medicina, la letteratura e l'economia. Anche se le macchine analogiche sono tecniche superiori dovremmo preferire macchine di Turing lente ma discrete,

Insegnamento della matematica

Per comprendere la differenza tra il calcolo digitale e quello analogico, dobbiamo concentrarci sulla matematica stessa che viene utilizzata nelle scuole. Se l'idea è di portare avanti il ​​calcolo analogico, il tipo appropriato di matematica è raggruppato attorno a campi elettrici, integrazione e differenziazione. Nelle scuole questo viene insegnato sotto il termine ombrello "Analisi matematica". Questo argomento era molto importante in passato, poiché l'analisi aiuta a costruire ponti, macchine e automobili. In tutti questi domini viene utilizzata l'algebra vettoriale per la descrizione dello spazio geometrico.

Se il calcolo analogico è così potente, perché qualcuno ha bisogno della matematica digitale? Ha a che fare con l'algoritmo. Ciò che planimetro e analizzatore differenziale non ha da offrire sono le capacità di programmazione. Non è possibile definire algoritmi e linguaggi artificiali. Uno sguardo alla storia della matematica mostra che la teoria dell'algoritmo non era molto comune in passato. Nella matematica moderna è discusso sotto il termine calcolo di Lambda e problema di Halting .

La cosa divertente è che a prima vista il calcolo di Lamda non ha applicazioni pratiche. Non è necessario se qualcuno vuole calcolare l'area di un ponte. La teoria dell'algoritmo è una scuola di pensiero per migliorare il pensiero critico. È una filosofia necessaria agli umani, non alle macchine.


Bello che tu abbia menzionato Seigelmann. Il secondo paragrafo è difficile da seguire logicamente. Certamente l'educazione è al centro di questa domanda, e il sequenziamento del DNA e l'imaging digitale hanno decisamente migliorato la medicina. Puoi approfondire come è migliorata la letteratura? Alcuni sosterrebbero che il calcolo digitale ha peggiorato la volatilità dell'economia, ma più centrale per i requisiti di generosità, perché qualcuno preferirebbe il lento discreto al rapido continuo non segue dall'affermazione di Wolfram. Non c'è nemmeno riferimento all'affermazione. Potete fornire un riferimento e fornire la logica mancante?
FauChristian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.