Le carenze delle reti neurali stanno diminuendo?


8

Avendo lavorato con le reti neurali per circa sei mesi, ho sperimentato in prima persona quelli che spesso vengono dichiarati come i loro principali svantaggi, ovvero il sovradimensionamento e il rimanere bloccati nei minimi locali. Tuttavia, attraverso l'ottimizzazione dell'iperparametro e alcuni approcci recentemente inventati, questi sono stati superati per i miei scenari. Dai miei esperimenti:

  • Il dropout sembra essere un ottimo metodo di regolarizzazione (anche uno pseudo-ensembler?),
  • La normalizzazione in lotti facilita l'allenamento e mantiene costante la potenza del segnale su molti livelli.
  • Adadelta raggiunge costantemente ottime ottimas

Ho sperimentato l'implementazione di SciKit-learns di SVM insieme ai miei esperimenti con le reti neurali, ma trovo che le prestazioni siano molto scarse in confronto, anche dopo aver fatto ricerche in griglia per iperparametri. Mi rendo conto che ci sono innumerevoli altri metodi e che le SVM possono essere considerate una sottoclasse di NN, ma comunque.

Quindi, alla mia domanda:

Con tutti i nuovi metodi ricercati per le reti neurali, sono diventati lentamente - o diventeranno "superiori" ad altri metodi? Le reti neurali hanno i loro svantaggi, come altri, ma con tutti i nuovi metodi, questi svantaggi sono stati mitigati in uno stato di insignificanza?

Mi rendo conto che spesso "less is more" in termini di complessità del modello, ma anche quello può essere progettato per le reti neurali. L'idea di "nessun pranzo libero" ci proibisce di presumere che un approccio regnerà sempre superiore. È solo che i miei esperimenti - insieme a innumerevoli articoli su fantastiche esibizioni di varie NN - indicano che potrebbe esserci almeno un pranzo molto economico.


tosse nessun teorema del pranzo libero tosse
yters

Risposte:


5

Le reti neurali hanno anche altre carenze.

  1. Ci vuole molto più tempo e molte più risorse per addestrare una rete neurale rispetto a qualcosa come una foresta casuale. Quindi, se hai bisogno di velocità di allenamento o di risorse limitate in ogni caso, probabilmente non dovresti prima guardare a Neural Networks. La valutazione di una NN profonda addestrata può essere molto più costosa delle tecniche concorrenti.
  2. Lo sforzo per imparare a progettare e formare una NN è ancora molto più alto rispetto ai metodi concorrenti, come un SVM. Le persone che hanno appena iniziato a lavorare in Data Science dovrebbero probabilmente usare altre tecniche per conoscere le sfumature del fitting dei dati prima di essere coinvolte nelle reti neurali. E sebbene i NN semplici con solo uno o due iperparametri siano spesso disponibili in molte librerie di data science, non funzionano meglio di altre tecniche, quindi sono solo un'altra tecnica di scatola nera ML.
  3. Mentre abbiamo fatto molti progressi nella comprensione di come le reti neurali fanno la loro magia, sono ancora meno accessibili e dissecabili rispetto alla maggior parte dei metodi concorrenti. Quindi, sebbene le NN possano risolvere il problema, potrebbero non fornirti tante informazioni tanto facilmente quanto altre tecniche.

In attesa di quello che gli altri hanno da dire qui.


Aspetti positivi, anche se alcuni dei problemi di prestazioni possono essere mitigati dalle GPU, penso. Inoltre, posso consigliare caldamente Keras, in quanto consente una composizione molto semplice di MLP di base. Sebbene, come dici tu, quando usi una libreria di livello molto alto come SciKit Learn, è un po 'difficile ottenere buone prestazioni, poiché gli iperparametri sono un po' troppo superficiali e non forniscono alcune delle metodologie più recenti.
Alexander C. Harrington,

Sì, ma anche con un numero enorme di GPU, sono ancora molto più lenti delle tecniche concorrenti. La formazione DNN è davvero pesante, sto lavorando a progetti in una grande azienda tecnologica in cui parlano abitualmente di giorni di formazione di DNN su cluster GPU molto grandi dedicati a questo tipo di attività da solo. Non vedi quel tipo di calcolo dedicato agli algoritmi AFAIK basati su foreste casuali.
Mike Wise,

Vedo. Ma suppongo che ciò sia in cambio di prestazioni notevolmente superiori dai DNN? O forse il margine che fa la differenza?
Alexander C. Harrington,

Bene, sappiamo che i DNN sono potenzialmente capaci di intelligenza a livello umano :) - anche se non sappiamo esattamente come ancora. Concretamente, oggi sappiamo che ci danno i migliori risultati per compiti come il riconoscimento di immagini complesse, la decodifica del suono, l'inferenza di intenti in una conversazione e pochi altri.
Mike Wise,

3

Solo per aggiungere ciò che è stato detto nella brillante risposta di @ MikeWise,

  • A parità di condizioni, i modelli di deep learning generalmente si posizionano in posizione suprema rispetto ad altri algoritmi all'aumentare della dimensione del set di dati:

    perché l'apprendimento profondo

  • Come tutto, tutto si riduce al set di dati a portata di mano, le reti neurali sono buone su altri set di dati ma allo stesso tempo, saranno cattive su altri set di dati. Quando si tratta di problemi non strutturati (ad esempio immagini, testo, suono ), in questo momento le reti neurali sembrano essere l'algoritmo migliore. Detto questo, quando si tratta di dati strutturati, una rapida scansione del tipo di algoritmo utilizzato per vincere le competizioni di scienza dei dati online lo rivela, i cosiddetti algoritmi di apprendimento automatico come XGboost si posizionano al vertice .

  • Quando si tratta di altri modelli, l'ingegnerizzazione delle funzioni gioca un ruolo importante nell'efficienza dell'algoritmo. L'ingegnerizzazione delle funzioni è generalmente una cosa difficile da fare e da fare nel modo giusto. Gli algoritmi di deep learning non richiedono la stessa ingegnerizzazione delle funzionalità (se non del tutto) rispetto ad altri algoritmi, infatti imparano le funzionalità da soli .

  • Se i ragazzi di Google affermano di non aver visto l'apprendimento in profondità chi dovrebbe escludere la possibilità che alcuni cosiddetti algoritmi di apprendimento automatico escano e conquistino il mondo?

  • Ecco un sondaggio su ciò che ha detto lo scienziato dei dati quando gli è stato chiesto: se il deep learning corrisponde all'hype nell'applicazione nel mondo reale? .

  • Anche alcune delle più diffuse applicazioni di deep learning come AlphaGo di Google non sono al 100% di deep learning , invece sono in parte deep learning, in parte buoni vecchi "machine learning". Il mio 2 cent è, forse non dovremmo ancora escludere altri algoritmi di apprendimento automatico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.