Utilizzare per domande sulla Backpropagation, che viene comunemente utilizzata nell'addestramento di reti neurali insieme a un metodo di ottimizzazione come la discesa del gradiente.
Questa è una piccola domanda concettuale che mi assilla da un po 'di tempo: come possiamo propagare indietro attraverso uno strato di max pooling in una rete neurale? Mi sono imbattuto nei livelli di max pooling durante questa esercitazione per la libreria nn di Torch 7. La libreria estrae il …
Uso reti neurali da un po 'di tempo. Tuttavia, una cosa con cui continuo a lottare è la selezione di un ottimizzatore per allenare la rete (usando backprop). Quello che faccio di solito è solo iniziare con uno (ad esempio SGD standard) e poi provare altri altri in modo quasi …
Sto incontrando qualche difficoltà nel ricavare la propagazione indietro con ReLU e ho fatto un po 'di lavoro, ma non sono sicuro di essere sulla strada giusta. Funzione di costo: dove è il valore reale e è un valore previsto. Supponi anche che > 0 sempre.y y x12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx …
Esaurirò il mio LSTM se lo alleno attraverso l'approccio a finestra scorrevole? Perché le persone non sembrano usarlo per gli LSTM? Per un esempio semplificato, supponiamo che dobbiamo prevedere la sequenza di caratteri: A B C D E F G H I J K L M N O P Q …
Ho la seguente CNN: Comincio con un'immagine di input di dimensioni 5x5 Quindi applico la convoluzione usando il kernel 2x2 e stride = 1, che produce una mappa delle caratteristiche di dimensioni 4x4. Quindi applico 2x2 max-pooling con stride = 2, che riduce la mappa delle caratteristiche a dimensioni 2x2. …
Ho una piccola domanda secondaria a questa domanda . Capisco che quando si propaga indietro attraverso uno strato di pool massimo il gradiente viene instradato indietro in modo tale che il neurone nel livello precedente che è stato selezionato come max ottenga tutto il gradiente. Ciò di cui non sono …
Sto cercando di capire quanti pesi e distorsioni sono necessari per la CNN. Supponi di avere un'immagine (3, 32, 32) e di voler applicare un filtro (32, 5, 5). Per ogni mappa caratteristica ho pesi 5x5, quindi dovrei avere 3 parametri (5x5) x 32. Ora devo aggiungere il pregiudizio. Credo …
Supponiamo che stiamo usando una dimensione batch di 100 campioni per l'apprendimento. Quindi in ogni batch, il peso di ogni neurone (e distorsione, ecc.) Viene aggiornato aggiungendo il meno della velocità di apprendimento * il valore di errore medio che abbiamo trovato usando i 100 campioni * la derivata della …
Ho due tensori a:[batch_size, dim] b:[batch_size, dim]. Voglio fare un prodotto interno per ogni coppia nel lotto, generando c:[batch_size, 1], dove c[i,0]=a[i,:].T*b[i,:]. Come?
Riesco a vedere due motivi per usare i gradienti sintetici in RNN: Per accelerare l'allenamento, correggendo immediatamente ogni strato con gradiente previsto Essere in grado di apprendere sequenze più lunghe Vedo problemi con entrambi. Tieni presente che mi piacciono molto i gradienti sintetici e vorrei implementarli. Ma devo capire dove …
Di recente ho fatto i compiti in cui ho dovuto imparare un modello per la classificazione a 10 cifre MNIST. L'HW aveva del codice per le impalcature e avrei dovuto lavorare nel contesto di questo codice. I miei compiti funzionano / superano i test, ma ora sto provando a fare …
È risaputo che una rete a 1 strato non è in grado di prevedere la funzione xor, poiché non è separabile linearmente. Ho tentato di creare una rete a 2 livelli, utilizzando la funzione sigmoid logistica e backprop, per prevedere xor. La mia rete ha 2 neuroni (e un bias) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.