Pre-training nella rete neurale profonda convoluzionale?

33

Qualcuno ha visto letteratura sulla pre-formazione in una rete neurale convoluzionale profonda? Ho visto solo pre-training senza supervisione in autoencoder o macchine boltzman limitate.

— RockTheStar
fonte

39

Non sono sicuro che questo risponda esattamente alla tua domanda, ma da quello che capisco il motivo per cui non vedi le persone che predicano ( intendo questo in un senso di pretrattamento non supervisionato) le convinzioni è perché ci sono state varie innovazioni nella formazione puramente supervisionata che hai reso superflua la predicazione senza supervisione (per ora, chissà quali problemi e quali problemi affronterà il futuro?).

$f(x) = \max(0, x)$

L'articolo di Glorot, Bordes e Bengio utilizzava ReLU per percetroni multistrato e non reti di Conv. Un articolo precedente Qual è la migliore architettura multistadio per il riconoscimento di oggetti di Jarret e altri del gruppo NYU di Yann LeCun ha usato rettifiche non linearità ma per le unità sigmoidali, quindi avevano funzioni di attivazione della forma, ecc. Entrambi gli articoli hanno osservato che l'uso della non linearità rettificante sembra colmare gran parte del divario tra metodi puramente supervisionati e metodi privi di supervisione senza supervisione. $f(x) = |\tanh(x)|$

Un'altra innovazione è che abbiamo capito inizializzazioni molto migliori per le reti profonde. Usando l'idea di standardizzare la varianza attraverso gli strati di una rete, nel corso degli anni sono state stabilite buone regole pratiche. Uno dei primi, più popolari, è stato quello di Glorot e Bengio Capire la difficoltà di addestrare reti di feedforward profonde che hanno fornito un modo per inizializzare le reti profonde con un'ipotesi di attivazione lineare e successivamente approfondire i raddrizzatori profondida un gruppo di membri del team di Microsoft Research che modificano l'inizializzazione del peso Glorot e Bengio per tenere conto delle non linearità rettificanti. L'inizializzazione del peso è un grosso problema per reti estremamente profonde. Per una rete a 30 strati, l'inizializzazione del peso MSR ha funzionato molto meglio dell'inizializzazione del peso Glorot. Tieni presente che il documento Glorot è uscito nel 2010 e il documento MSR è uscito nel 2015.

Non sono sicuro se la classificazione ImageNet con Deep Convolutional Neural Networks di Alex Krizhevsky, Ilya Sutskever e Geoff Hinton sia stata la prima a utilizzare ReLU per reti di comunicazione, ma ha avuto il maggiore impatto. In questo articolo vediamo che le ReLU per le reti di comunicazione accelerano l'apprendimento, come evidenziato da uno dei loro grafici CIFAR-10 che mostra che le reti di ReLU possono ottenere tassi di errore di addestramento più bassi più rapidamente delle reti di non ReLU. Queste ReLU non soffrono del gradiente di scomparsa / saturazione dei problemi sigmoidali e possono essere utilizzate per addestrare reti molto più profonde. Una delle altre grandi innovazioni è stata l'uso del dropout training, un'iniezione di rumore stocastica o una tecnica di media dei modelli (a seconda del punto di vista) che ci consente di allenare reti neurali più profonde e più lunghe più a lungo senza un eccesso di adattamento.

E l'innovazione della rete di comunicazioni è continuata a un ritmo vertiginoso, quasi tutti i metodi che utilizzano ReLU (o alcune modifiche come PReLU di Microsoft Research), Dropout e formazione puramente supervisionata (SGD + Momentum, forse alcune tecniche di tasso di apprendimento adattivo come RMSProp o ADAGrad ).

Quindi, sin d'ora, molte delle reti con le migliori prestazioni sembrano di natura puramente supervisionata. Questo non vuol dire che la pretrattamento senza supervisione o l'utilizzo di tecniche senza supervisione potrebbero non essere importanti in futuro. Ma alcune reti di convinzione incredibilmente profonde sono state addestrate, hanno eguagliato o superato le prestazioni a livello umano su set di dati molto ricchi, usando solo un addestramento supervisionato. In effetti, credo che l'ultima presentazione di Microsoft Research al concorso ImageNet 2015 abbia avuto 150 livelli. Non è un errore di battitura. 150.

Se si desidera utilizzare il pretrattamento senza supervisione per le reti di conio, penso che sarebbe meglio trovare un compito in cui l'addestramento supervisionato "standard" delle reti di collegamento non si comporta così bene e provare il pretrattamento senza controllo.

A differenza della modellazione del linguaggio naturale, sembra difficile trovare un'attività non supervisionata che aiuta un'attività supervisionata corrispondente quando si tratta di dati di immagine. Ma se ti guardi abbastanza in giro per Internet, vedi alcuni dei pionieri del deep learning (Yoshua Bengio, Yann LeCun per citarne alcuni) che parlano dell'importanza che pensano e che sarà l'apprendimento senza supervisione.

— Indie AI
fonte

1

Ho visto nel tutorial di Stanford su ConvNet che, c'è una predicazione nelle reti neurali convoluzionali. ecco il link: cs231n.github.io/transfer-learning Sono diversi? dal momento che stanno effettivamente facendo la stessa cosa, giusto?

— Rika,

2

Ehi, mi dispiace per la risposta tardiva. L'apprendimento del trasferimento è fatto molto. Viene utilizzato per evitare il noioso compito di allenarsi da zero e invece di utilizzare funzionalità addestrate su un set di dati di grandi dimensioni come ImageNet, e noi formiamo invece solo un classificatore su queste funzionalità. Ho aggiornato la mia risposta per specificare che in questi giorni non si vede un sacco di pre-supervisione senza supervisione , che non è la stessa dell'apprendimento del trasferimento. Grazie per il commento.

— Indie AI

+1. Ottima risposta Quello che mi manca c'è qualche discussione o commento sul fatto che ciò che stai dicendo (cioè che non è necessario pre-addestrare) si applichi specificamente alle reti neurali convoluzionali (se sì, perché?) O a qualsiasi rete profonda, incluso il non- quelli convoluzionali.

— ameba dice di reintegrare Monica

14

Come si può capire dalle risposte di cui sopra, il pre-allenamento è stato "modellato" quando sono avvenute più cose. Tuttavia, voglio distillare la mia comprensione di ciò:

Molto tempo fa, nel 2010, a tutti importava il pre-allenamento. Ecco un ottimo documento sull'argomento che non ho visto sollevato.
Poco prima che Alex Krizhevsky, Ilya Sutskever e Geoff Hinton avessero pubblicato il loro articolo imagenet, la gente credeva ancora che le caratteristiche contassero, ma si concentrava principalmente sull'apprendimento senza supervisione e persino sull'apprendimento autodidatta per produrre quelle caratteristiche.
Non è difficile capire perché - i mattoni delle reti neurali all'epoca non erano così robusti e convergevano molto lentamente in funzioni utili. Molte volte hanno persino fallito in modo spettacolare. La pre-formazione è stata utile quando si disponevano di ampi dati per ottenere una buona inizializzazione per SGD.
Quando fu allevato relu, le reti convergevano più velocemente. Quando sono state introdotte una perdita che fuoriesce e soluzioni più recenti, le reti neurali sono diventate macchine più robuste quando si tratta di convergere verso un risultato praticabile. Consiglio vivamente di giocare con un'eccellente demo di reti neurali scritta da questo talentuoso googler , vedrai di cosa sto parlando.
Arrivare al nostro punto principale, non vuol dire che una qualche forma di pre-allenamento non è importante per l'apprendimento profondo. Se si desidera ottenere risultati all'avanguardia, è necessario eseguire una pre-elaborazione dei dati (ad esempio ZCA) e scegliere correttamente i pesi iniziali: questo è un ottimo documento sull'argomento .

Come vedi, il pre-allenamento è cambiato in forma di pre-elaborazione e inizializzazione dei pesi, ma è rimasto in funzione ed è diventato più elegante.

Come nota finale, l'apprendimento automatico è molto di moda. Scommetto personalmente come Andrew Ng che l'apprendimento senza supervisione e autodidatta sarà dominante in futuro, quindi non fare di questo una religione :)

— rhadar
fonte

13

Ci sono alcuni documenti ma non tanto quanto gli autoencoder o gli RBM. Penso che la ragione sia la linea temporale di NN. Stacked RBM e autoencoder sono stati introdotti rispettivamente nel 2006 e nel 2007 . Dopo l'impiego di ReLU nel 2009, l'apprendimento senza supervisione viene parzialmente abbandonato (quando ci sono abbastanza dati per apprendere con l'apprendimento diretto supervisionato). Anche se Convolution net (o LeNet) è stata inventata nel 1989 , non ha potuto formarsi come struttura profonda fino al 2012, dopo la divulgazione dell'apprendimento diretto supervisionato con ReLU. Quindi i ricercatori, immagino, l'hanno addestrato principalmente usando l'apprendimento diretto supervisionato.

— yasin.yazici
fonte

Quindi, sei d'accordo che non ci siano ancora pre-training nella rete neurale profonda convoluzionale?

— RockTheStar,

4

@RockTheStar no, ci sono ma non tanto quanto i due precedenti. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf questa ricerca lo ha utilizzato. Ecco una breve citazione; "Osserviamo che la pre-formazione migliora sia la DNN che la CNN, ad eccezione della CNN su TIMIT, dove il pretrattamento non ha aiutato. In generale, il miglioramento relativo dell'utilizzo del pretrattamento per la CNN è inferiore a quello sulla DNN."

— yasin.yazici,