Qualcuno ha visto letteratura sulla pre-formazione in una rete neurale convoluzionale profonda? Ho visto solo pre-training senza supervisione in autoencoder o macchine boltzman limitate.
Qualcuno ha visto letteratura sulla pre-formazione in una rete neurale convoluzionale profonda? Ho visto solo pre-training senza supervisione in autoencoder o macchine boltzman limitate.
Risposte:
Non sono sicuro che questo risponda esattamente alla tua domanda, ma da quello che capisco il motivo per cui non vedi le persone che predicano ( intendo questo in un senso di pretrattamento non supervisionato) le convinzioni è perché ci sono state varie innovazioni nella formazione puramente supervisionata che hai reso superflua la predicazione senza supervisione (per ora, chissà quali problemi e quali problemi affronterà il futuro?).
L'articolo di Glorot, Bordes e Bengio utilizzava ReLU per percetroni multistrato e non reti di Conv. Un articolo precedente Qual è la migliore architettura multistadio per il riconoscimento di oggetti di Jarret e altri del gruppo NYU di Yann LeCun ha usato rettifiche non linearità ma per le unità sigmoidali, quindi avevano funzioni di attivazione della forma, ecc. Entrambi gli articoli hanno osservato che l'uso della non linearità rettificante sembra colmare gran parte del divario tra metodi puramente supervisionati e metodi privi di supervisione senza supervisione.
Un'altra innovazione è che abbiamo capito inizializzazioni molto migliori per le reti profonde. Usando l'idea di standardizzare la varianza attraverso gli strati di una rete, nel corso degli anni sono state stabilite buone regole pratiche. Uno dei primi, più popolari, è stato quello di Glorot e Bengio Capire la difficoltà di addestrare reti di feedforward profonde che hanno fornito un modo per inizializzare le reti profonde con un'ipotesi di attivazione lineare e successivamente approfondire i raddrizzatori profondida un gruppo di membri del team di Microsoft Research che modificano l'inizializzazione del peso Glorot e Bengio per tenere conto delle non linearità rettificanti. L'inizializzazione del peso è un grosso problema per reti estremamente profonde. Per una rete a 30 strati, l'inizializzazione del peso MSR ha funzionato molto meglio dell'inizializzazione del peso Glorot. Tieni presente che il documento Glorot è uscito nel 2010 e il documento MSR è uscito nel 2015.
Non sono sicuro se la classificazione ImageNet con Deep Convolutional Neural Networks di Alex Krizhevsky, Ilya Sutskever e Geoff Hinton sia stata la prima a utilizzare ReLU per reti di comunicazione, ma ha avuto il maggiore impatto. In questo articolo vediamo che le ReLU per le reti di comunicazione accelerano l'apprendimento, come evidenziato da uno dei loro grafici CIFAR-10 che mostra che le reti di ReLU possono ottenere tassi di errore di addestramento più bassi più rapidamente delle reti di non ReLU. Queste ReLU non soffrono del gradiente di scomparsa / saturazione dei problemi sigmoidali e possono essere utilizzate per addestrare reti molto più profonde. Una delle altre grandi innovazioni è stata l'uso del dropout training, un'iniezione di rumore stocastica o una tecnica di media dei modelli (a seconda del punto di vista) che ci consente di allenare reti neurali più profonde e più lunghe più a lungo senza un eccesso di adattamento.
E l'innovazione della rete di comunicazioni è continuata a un ritmo vertiginoso, quasi tutti i metodi che utilizzano ReLU (o alcune modifiche come PReLU di Microsoft Research), Dropout e formazione puramente supervisionata (SGD + Momentum, forse alcune tecniche di tasso di apprendimento adattivo come RMSProp o ADAGrad ).
Quindi, sin d'ora, molte delle reti con le migliori prestazioni sembrano di natura puramente supervisionata. Questo non vuol dire che la pretrattamento senza supervisione o l'utilizzo di tecniche senza supervisione potrebbero non essere importanti in futuro. Ma alcune reti di convinzione incredibilmente profonde sono state addestrate, hanno eguagliato o superato le prestazioni a livello umano su set di dati molto ricchi, usando solo un addestramento supervisionato. In effetti, credo che l'ultima presentazione di Microsoft Research al concorso ImageNet 2015 abbia avuto 150 livelli. Non è un errore di battitura. 150.
Se si desidera utilizzare il pretrattamento senza supervisione per le reti di conio, penso che sarebbe meglio trovare un compito in cui l'addestramento supervisionato "standard" delle reti di collegamento non si comporta così bene e provare il pretrattamento senza controllo.
A differenza della modellazione del linguaggio naturale, sembra difficile trovare un'attività non supervisionata che aiuta un'attività supervisionata corrispondente quando si tratta di dati di immagine. Ma se ti guardi abbastanza in giro per Internet, vedi alcuni dei pionieri del deep learning (Yoshua Bengio, Yann LeCun per citarne alcuni) che parlano dell'importanza che pensano e che sarà l'apprendimento senza supervisione.
Come si può capire dalle risposte di cui sopra, il pre-allenamento è stato "modellato" quando sono avvenute più cose. Tuttavia, voglio distillare la mia comprensione di ciò:
Come vedi, il pre-allenamento è cambiato in forma di pre-elaborazione e inizializzazione dei pesi, ma è rimasto in funzione ed è diventato più elegante.
Come nota finale, l'apprendimento automatico è molto di moda. Scommetto personalmente come Andrew Ng che l'apprendimento senza supervisione e autodidatta sarà dominante in futuro, quindi non fare di questo una religione :)
Ci sono alcuni documenti ma non tanto quanto gli autoencoder o gli RBM. Penso che la ragione sia la linea temporale di NN. Stacked RBM e autoencoder sono stati introdotti rispettivamente nel 2006 e nel 2007 . Dopo l'impiego di ReLU nel 2009, l'apprendimento senza supervisione viene parzialmente abbandonato (quando ci sono abbastanza dati per apprendere con l'apprendimento diretto supervisionato). Anche se Convolution net (o LeNet) è stata inventata nel 1989 , non ha potuto formarsi come struttura profonda fino al 2012, dopo la divulgazione dell'apprendimento diretto supervisionato con ReLU. Quindi i ricercatori, immagino, l'hanno addestrato principalmente usando l'apprendimento diretto supervisionato.