Problemi e alternative agli approcci al Deep Learning?


17

Negli ultimi 50 anni, l'aumento / la caduta / l'aumento della popolarità delle reti neurali ha agito come un "barometro" per la ricerca sull'IA.

Dalle domande su questo sito è chiaro che le persone sono interessate ad applicare Deep Learning (DL) a un'ampia varietà di problemi difficili.

Ho quindi due domande:

  1. Professionisti - Quali sono gli ostacoli principali all'applicazione di DL "out of the box" al tuo problema?
  2. Ricercatori - Quali tecniche usi (o hai sviluppato) che potrebbero aiutare ad affrontare questioni pratiche? Sono all'interno di DL o offrono un approccio alternativo?

3
Se hai due domande, dovresti fare due domande.
bpachev,

1
Sono chiaramente interconnessi.
NietzscheanAI,

Risposte:


5

Per riassumere, ci sono due problemi principali nell'apprendimento profondo applicato.

  • Il primo è che dal punto di vista computazionale, è esaustivo. Le CPU normali richiedono molto tempo per eseguire anche il calcolo / addestramento di base con Deep Learning. Le GPU sono quindi consigliate, anche se potrebbero non essere sufficienti in molte situazioni. I tipici modelli di apprendimento profondo non supportano il tempo teorico di essere nei polinomi. Tuttavia, se consideriamo i modelli relativamente più semplici in ML per gli stessi compiti, troppo spesso abbiamo garanzie matematiche che il tempo di addestramento richiesto per algoritmi così semplici sia in Polinomi. Questa, per me, è probabilmente la differenza più grande.

    Ci sono soluzioni per contrastare questo problema, però. Un approccio principale è quello di ottimizzare gli algoritmi DL solo per un numero di iterazioni (invece di guardare in pratica le soluzioni globali, basta ottimizzare l'algoritmo su una buona soluzione locale, mentre il criterio per "Buono" è definito dall'utente).

  • Un altro problema che può essere un po 'controverso per i giovani appassionati di deep learning è che gli algoritmi di Deep Learning mancano di comprensione e ragionamento teorico. Le reti neurali profonde sono state utilizzate con successo in molte situazioni, tra cui il riconoscimento della scrittura a mano, l'elaborazione delle immagini, le auto a guida autonoma, l'elaborazione del segnale, la PNL e l'analisi biomedica. In alcuni di questi casi, hanno persino superato gli umani. Tuttavia, detto ciò, non sono in nessun caso, teoricamente validi come la maggior parte dei metodi statistici.

    Non entrerò nei dettagli, piuttosto lo lascio a voi. Ci sono pro e contro per ogni algoritmo / metodologia e DL non fa eccezione. È molto utile come è stato dimostrato in molte situazioni e ogni giovane scienziato dei dati deve imparare almeno le basi di DL. Tuttavia, nel caso di problemi relativamente semplici, è meglio usare famosi metodi statistici poiché hanno molti risultati / garanzie teorici per supportarli. Inoltre, dal punto di vista dell'apprendimento, è sempre meglio iniziare con approcci semplici e padroneggiarli prima.


Con "in polinomi" intendi "in tempo polinomiale", giusto? Hai un riferimento per supportarlo?
Nietzschean

Sì, è esattamente quello che intendo. Certo, può essere dimostrato in molte situazioni ... Inizierò con l'esempio più semplice possibile, Solo addestrare una rete con tre nodi e due livelli è il problema NP-Complete, come mostrato qui. ( Citeseerx.ist.psu. edu / viewdoc /… ). Ricorda che questo documento è molto vecchio e ora abbiamo più idee su come migliorare in pratica, con alcune euristiche, ma ancora, teoricamente, non ci sono risultati migliorati.
Sibghat Ullah,

Altro bell'articolo sullo stesso problema, che descrive anche alcuni trucchi per migliorare i tempi di allenamento in pratica. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

Diciamo, vogliamo prevedere il prezzo di qualcosa. La semplice regressione lineare con un adattamento meno quadrato avrà un tempo polinomiale, mentre la risoluzione dello stesso problema con le reti neurali (anche le più semplici) comporterà un problema NP completo. Questa è una grande differenza. Alla fine, devi selezionare attentamente un algoritmo per un'attività specifica. Ad esempio, Least Square fit ha presupposti specifici, che includono "La funzione ideale che l'apprendimento dell'algoritmo può essere appresa come combinazione lineare di caratteristiche". Se tale presupposto non è valido, si ottengono anche risultati.
Sibghat Ullah,

Naturalmente, semplicemente perché un problema (in questo caso, la ricerca di pesi ottimali) è NP-completo non significa di per sé che non ci siano metodi pratici efficaci per trovare buoni pesi ...
NietzscheanAI

5

Ho pochissima esperienza con ML / DL per definirmi uno dei due praticanti, ma ecco la mia risposta alla prima domanda:

Al suo interno DL risolve bene il compito di classificazione. Non tutti i problemi pratici possono essere riformulati in termini di classificazione. Il dominio di classificazione deve essere conosciuto in anticipo. Sebbene la classificazione possa essere applicata a qualsiasi tipo di dati, è necessario addestrare l'NN con campioni del dominio specifico in cui verranno applicati. Se il dominio viene cambiato a un certo punto, pur mantenendo lo stesso modello (struttura NN), dovrà essere riqualificato con nuovi campioni. Inoltre, anche i migliori classificatori hanno "lacune" - Gli esempi contraddittori possono essere facilmente costruiti da un campione di addestramento, in modo tale che i cambiamenti siano impercettibili per l'uomo, ma siano classificati erroneamente dal modello addestrato.


2
La "classificazione" può essere considerata un caso speciale di "regressione", che probabilmente è quindi una migliore caratterizzazione della DL.
NietzscheanAI,

3

Domanda 2. Sto cercando se il calcolo iper dimensionale sia un'alternativa al Deep Learning. Hyper-D utilizza vettori di bit molto lunghi (10.000 bit) per codificare le informazioni. I vettori sono casuali e come tali sono approssimativamente ortogonali. Raggruppando e calcolando la media di una raccolta di tali vettori è possibile formare un "insieme" e successivamente interrogarlo per vedere se un vettore sconosciuto appartiene all'insieme. L'insieme può essere considerato un concetto o un'immagine generalizzata, ecc. La formazione è molto veloce così come il riconoscimento. Ciò che deve essere fatto è simulare i domini in cui Deep Learning ha avuto successo e confrontare Hyper-D con esso.


Interessante. In che modo differisce dalla "Sparse Distributed Memory" di Kanerva?
Nietzschean

Entrambi sono sviluppati da Pentti Kanerva. Cerca il calcolo iper dimensionale per vedere la differenza. Troppo tempo per rispondere qui.
Douglas G Danforth,

1

Da un punto di vista matematico, uno dei problemi principali nelle reti profonde con diversi livelli sono i gradienti che svaniscono o sono instabili . Ogni livello nascosto aggiuntivo apprende significativamente più lentamente, annullando quasi il vantaggio del livello aggiuntivo.

I moderni approcci di deep learning possono migliorare questo comportamento, ma nelle reti neurali semplici e vecchio stile questo è un problema ben noto. Puoi trovare un'analisi ben scritta qui per uno studio più approfondito.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.