Perché ML è diventato praticabile solo dopo che i chip di Nvidia erano disponibili?


11

Ho ascoltato un discorso di gruppo composto da due influenti scienziati cinesi: Wang Gang e Yu Kai e altri.

Alla domanda sul più grande collo di bottiglia dello sviluppo dell'intelligenza artificiale nel prossimo futuro (da 3 a 5 anni), Yu Kai, che ha un background nel settore hardware, ha affermato che l'hardware sarebbe il problema essenziale e dovremmo pagare la maggior parte di la nostra attenzione a questo. Ci ha dato due esempi:

  1. Nel primo sviluppo del computer, confrontiamo le nostre macchine con i suoi chip;
  2. L'intelligenza artificiale che è molto popolare in questi anni sarebbe quasi impossibile se non potenziata dalla GPU di Nvidia.

Gli algoritmi fondamentali esistevano già negli anni '80 e '90, ma l'intelligenza artificiale ha attraversato 3 inverni AI e non è stata empirica fino a quando non siamo in grado di addestrare modelli con mega server potenziati dalla GPU.

Quindi il Dr. Wang ha commentato le sue opinioni sul fatto che dovremmo anche sviluppare sistemi software perché non possiamo costruire un'auto automatica anche se abbiamo combinato tutte le GPU e il calcolo nel mondo insieme.

Quindi, come al solito, la mia mente si è allontanata e ho iniziato a pensare che cosa accadrebbe se coloro che erano in grado di gestire i supercomputer negli anni '80 e '90 utilizzassero gli algoritmi della rete neurale allora esistenti e li addestrassero con tonnellate di dati scientifici? Alcune persone a quel tempo possono ovviamente tentare di costruire sistemi di intelligenza artificiale che stiamo costruendo ora. Ma perché l'IA è diventata un argomento caldo ed è diventata empirica fino a decenni dopo? È solo una questione di hardware, software e dati?


3
Questa domanda presuppone che l'IA sia solo apprendimento automatico, che è palesemente sbagliato. È in circolazione da oltre 60 anni e solo l'ambito molto ristretto delle reti di apprendimento profondo / neurali è stato accelerato dall'hardware attualmente disponibile. L'intelligenza artificiale è stata più volte un argomento caldo, respinto dal fatto che ogni volta è stato esagerato.
Oliver Mason

@OliverMason Sì. In quel contesto, abbiamo ridotto l'IA solo all'apprendimento automatico e all'apprendimento profondo.
Lerner Zhang,

OK, ho modificato il titolo di conseguenza.
Oliver Mason

Risposte:


14

Ci sono molti fattori per il boom dell'industria dell'IA. Ciò che molte persone mancano è che il boom sia stato principalmente nella parte dell'apprendimento automatico dell'IA. Questo può essere attribuito a vari motivi semplici insieme ai loro confronti durante i periodi precedenti:

  • Matematica : i calcoli alla base degli algoritmi ML sono piuttosto semplici e noti da molto tempo (non sapeva se funzionasse o meno). In passato non era possibile implementare algoritmi che richiedono un'elevata precisione dei numeri, da calcolare su un chip, in un tempo accettabile. Una delle principali divisioni di operazioni aritmetiche di numeri richiede ancora molti cicli nei moderni processori. I processori più vecchi erano tempi di magnitudo più lenti rispetto ai processori moderni (più di 100x), questo collo di bottiglia ha reso impossibile formare modelli sofisticati sui processori contemporanei.
  • 10
  • Parallelizzazione : il concetto di parallelizzazione delle operazioni di matrice non è una novità. Solo quando abbiamo iniziato a vedere Deep Learning come un insieme di operazioni con matrici, ci siamo resi conto che può essere facilmente parallelizzato su GPU massicciamente parallele, anche se il tuo algoritmo ML non è intrinsecamente parallelo, non importa se usi CPU o GPU ( ad esempio RNN).
  • Dati : probabilmente la principale causa del boom delle ML. Internet ha offerto l'opportunità di raccogliere enormi quantità di dati dagli utenti e renderli disponibili anche alle parti interessate. Poiché un algoritmo ML è solo un approssimatore di funzioni basato sui dati, quindi i dati sono la cosa più importante in un algoritmo ML. Maggiore è il numero di dati, migliori saranno le prestazioni del modello.
  • Costo : il costo della formazione di un modello ML è notevolmente diminuito. Quindi usare un supercomputer per addestrare un modello potrebbe andare bene, ma ne è valsa la pena? I super computer, a differenza dei normali PC, sono tremendamente affamati di risorse in termini di raffreddamento, spazio, ecc. Un articolo recentesu MIT Technology Review sottolinea l'impronta di carbonio della formazione di un modello di Deep Learning (sotto-ramo di ML). È un buon indicatore del perché non sarebbe stato possibile allenarsi sui Supercomputer in tempi precedenti (considerando che i processori moderni consumano molta meno energia e offrono velocità più elevate). Anche se non ne sono sicuro, ma penso che i supercomputer precedenti fossero specializzati in "calcolo parallelo + altissima precisione" (richiesto per condizioni meteorologiche, astronomia, applicazioni militari, ecc.) E la "parte molto precauzionale" è eccessiva nello scenario di Machine Learning.

Un altro aspetto importante è oggi che tutti hanno accesso a computer potenti. Pertanto, chiunque può costruire nuovi modelli ML, riqualificare modelli preesistenti, modificare modelli, ecc. Ciò non era del tutto possibile in tempi precedenti,

Tutti questi fattori hanno portato a un forte aumento dell'interesse per la ML e hanno causato il boom che stiamo assistendo oggi. Dai un'occhiata anche a questa domanda su come stiamo andando oltre i processori digitali.


2

Le GPU erano ideali per il boom dell'IA perché

  • Hanno colpito il momento giusto

L'intelligenza artificiale è stata studiata per molto tempo. Quasi mezzo secolo. Tuttavia, quella era tutta un'esplorazione di come avrebbero funzionato e apparire gli algoritmi. Quando NV vide che l'intelligenza artificiale stava per diventare mainstream, guardarono le loro GPU e si resero conto che l'enorme potenza di elaborazione del parallelo, con relativa facilità di programmazione, è l'ideale per l'era che sarà. Molte altre persone hanno capito anche questo.

  • Le GPU sono una sorta di acceleratori di uso generale

GPGPU è un concetto di utilizzo dell'elaborazione parallela GPU per attività generali. Puoi accelerare la grafica o rendere il tuo algoritmo utalizzare migliaia di core disponibili su GPU. Ciò rende la GPU un target eccezionale per tutti i tipi di casi d'uso, compresa l'intelligenza artificiale. Dato che sono già disponibili e non sono troppo difficili da programmare, è la scelta ideale per accelerare gli algoritmi AI.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.