Sto usando una rete lstm e feed-forward per classificare il testo. Converto il testo in vettori one-hot e inserisco ciascuno in lstm in modo da poterlo riassumere in un'unica rappresentazione. Quindi lo invio all'altra rete. Ma come posso addestrare lstm? Voglio solo classificare in sequenza il testo: dovrei dargli da …
Stavo leggendo il Libro di Yoshua Bengio sull'apprendimento profondo e si dice a pagina 224: Le reti convoluzionali sono semplicemente reti neurali che usano la convoluzione al posto della moltiplicazione della matrice generale in almeno uno dei loro strati. tuttavia, non ero sicuro al 100% di come "sostituire la moltiplicazione …
Di recente ho letto un articolo di Yann Dauphin et al. Identificazione e attacco del problema del punto di sella nell'ottimizzazione non convessa ad alta dimensione , in cui introducono un interessante algoritmo di discesa chiamato Saddle-Free Newton , che sembra essere esattamente su misura per l'ottimizzazione della rete neurale …
C'è qualche letteratura che esamina la scelta della dimensione del minibatch quando si esegue la discesa gradiente stocastica? Nella mia esperienza, sembra essere una scelta empirica, di solito trovata attraverso la convalida incrociata o usando varie regole empiriche. È una buona idea aumentare lentamente le dimensioni del minibatch man mano …
La topologia del modello di Google Inception è disponibile qui: Google Inception Netowrk Ho notato che ci sono 3 livelli di softmax in questo modello (# 154, # 152, # 145) e 2 di loro sono una sorta di fuga anticipata di questo modello. Da quello che so, il layer …
È possibile avere pesi negativi (dopo epoche sufficienti) per reti neurali convoluzionali profonde quando si utilizza ReLU per tutti i livelli di attivazione?
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 10 mesi fa . So che ci sono molte librerie per l'apprendimento automatico e l'apprendimento profondo come caffe, Theano, TensorFlow, keras, …
La normalizzazione in lotti è stata accreditata con sostanziali miglioramenti delle prestazioni nelle reti neurali profonde. Un sacco di materiale su Internet mostra come implementarlo su una base di attivazione per attivazione. Ho già implementato il backprop usando l'algebra della matrice e dato che sto lavorando in linguaggi di alto …
I recenti progressi nelle reti neurali sono riassunti in una sequenza di nuove architetture caratterizzate principalmente dalla sua crescente complessità progettuale. Da LeNet5 (1994) a AlexNet (2012), a Overfeat (2013) e GoogleLeNet / Inception (2014) e così via ... Esiste un tentativo di consentire alla macchina di decidere / progettare …
Un estraneo al campo ML / DL; ha iniziato il corso Udacity Deep Learning basato su Tensorflow; fare l'incarico 3 problema 4; cercando di ottimizzare la frequenza di apprendimento con la seguente configurazione: Dimensione del lotto 128 Numero di passaggi: sufficiente per riempire 2 epoche Dimensioni degli strati nascosti: 1024, …
Supponiamo che io usi un RNN / LSTM per fare l'analisi del sentiment, che è un approccio molti-a-uno (vedi questo blog ). La rete viene addestrata attraverso una backpropagation troncata nel tempo (BPTT), dove la rete viene srotolata solo per gli ultimi 30 passaggi. Nel mio caso, ciascuna delle mie …
Nel libro Deep Learning di Ian Goodfellow , è scritto questo A volte, la funzione di perdita di cui ci preoccupiamo (diciamo, errore di classificazione) non può essere ottimizzata in modo efficiente. Ad esempio, minimizzare esattamente la perdita attesa 0-1 è generalmente intrattabile (esponenziale nella dimensione di input), anche per …
Background: sto studiando il capitolo 6 di Deep Learning di Ian Goodfellow e Yoshua Bengio e Aaron Courville. Nella sezione 6.2.2.2 (pagine 182 di 183 che possono essere visualizzate qui è motivato l'uso di sigmoid per l'output .P( y= 1 | x )P(y=1|X)P(y=1|x) Per riassumere parte del materiale lasciano z= …
Ho impostato una ricerca in griglia per un gruppo di parametri. Sto cercando di trovare i parametri migliori per una rete neurale di Keras che fa una classificazione binaria. L'output è 1 o 0. Esistono circa 200 funzioni. Quando ho fatto una ricerca sulla griglia, ho avuto un sacco di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.