La backpropagation, un'abbreviazione di "propagazione all'indietro degli errori", è un metodo comune di addestramento delle reti neurali artificiali utilizzato insieme a un metodo di ottimizzazione come la discesa del gradiente.
Molti libri e tutorial sulla rete neurale impiegano molto tempo nell'algoritmo di backpropagation, che è essenzialmente uno strumento per calcolare il gradiente. Supponiamo che stiamo costruendo un modello con ~ 10K parametri / pesi. È possibile eseguire l'ottimizzazione utilizzando alcuni algoritmi di ottimizzazione senza gradiente? Penso che calcolare il gradiente …
Comprendo che la discesa gradiente stocastica può essere utilizzata per ottimizzare una rete neurale mediante backpropagation aggiornando ogni iterazione con un diverso campione del set di dati di training. Quanto dovrebbe essere grande la dimensione del lotto?
In particolare, suppongo di chiedermi questa affermazione: Le versioni principali future di TensorFlow consentiranno ai gradienti di fluire nelle etichette immesse sul backprop per impostazione predefinita. Che è mostrato quando uso tf.nn.softmax_cross_entropy_with_logits. Nello stesso messaggio mi spinge a dare un'occhiata tf.nn.softmax_cross_entropy_with_logits_v2. Ho consultato la documentazione ma afferma solo che per …
Sto cercando di capire come funziona la backpropagation per un livello di output softmax / cross-entropia. La funzione di errore di entropia incrociata è E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j con e come target e output al neurone , rispettivamente. La somma è su ogni neurone nel livello di output. stesso è …
Ho letto alcuni articoli che parlano dei pro e dei contro di ciascun metodo, alcuni sostengono che GA non dia alcun miglioramento nel trovare la soluzione ottimale, mentre altri dimostrano che è più efficace. Sembra che GA sia generalmente preferito in letteratura (anche se la maggior parte delle persone lo …
Nel corso Neural Networks e Deep Learning di Andrew Ng su Coursera afferma che usare è quasi sempre preferibile usare .tanhtanhtanhsigmoidsigmoidsigmoid La ragione per cui egli dà è che le uscite utilizzando centro attorno 0 piuttosto che 's 0,5, e questo 'rende l'apprendimento per lo strato successivo un po 'più …
Ho letto qui il seguente: Le uscite Sigmoid non sono centrate sullo zero . Ciò è indesiderabile poiché i neuroni nei livelli successivi di elaborazione in una rete neurale (ne parleremo presto) riceveranno dati che non sono centrati sullo zero. Ciò ha implicazioni sulla dinamica durante la discesa del gradiente, …
Sono curioso di sapere come i gradienti vengono retro-propagati attraverso una rete neurale usando i moduli ResNet / salta le connessioni. Ho visto un paio di domande su ResNet (ad es. Rete neurale con connessioni skip-layer ) ma questa fa domande specifiche sulla retro-propagazione dei gradienti durante l'allenamento. L'architettura di …
Durante l'allenamento di una rete neurale mediante l'algoritmo di retro-propagazione, il metodo di discesa del gradiente viene utilizzato per determinare gli aggiornamenti del peso. La mia domanda è: anziché utilizzare il metodo di discesa gradiente per individuare lentamente il punto minimo rispetto a un determinato peso, perché non impostare semplicemente …
Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …
Perché la backpropagation non funziona quando si inizializza tutto il peso con lo stesso valore (diciamo 0,5), ma funziona bene quando si danno numeri casuali? L'algoritmo non dovrebbe calcolare l'errore e funzionare da lì, nonostante il fatto che inizialmente i pesi siano gli stessi?
Ho avuto una leggera confusione sull'algoritmo di backpropagation utilizzato nel perceptron multistrato (MLP). L'errore viene corretto dalla funzione di costo. In backpropagation, stiamo cercando di regolare il peso degli strati nascosti. L'errore di output che posso capire, vale a dire, e = d - y[senza gli abbonati]. Le domande sono: …
Quando ho implementato il gradiente mini batch decente, ho appena calcolato la media dei gradienti di tutti gli esempi nel batch di training. Tuttavia, ho notato che ora il tasso di apprendimento ottimale è molto più elevato rispetto al gradiente online decente. La mia intuizione è che ciò è dovuto …
In una rete neurale ricorrente, di solito si inoltra la propagazione attraverso diversi passaggi temporali, "si srotolano" la rete e quindi si propagano indietro attraverso la sequenza di input. Perché non dovresti semplicemente aggiornare i pesi dopo ogni singolo passaggio della sequenza? (l'equivalente dell'uso di una lunghezza di troncamento di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.