Le reti neurali artificiali (ANN) sono un'ampia classe di modelli computazionali vagamente basati su reti neurali biologiche. Comprendono NN feedforward (inclusi NN "profondi"), NN convoluzionali, NN ricorrenti, ecc.
Sto cercando di aggiungere uno strato di softmax a una rete neurale addestrata con backpropagation, quindi sto provando a calcolare il suo gradiente. L'output di softmax è hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} cuijjjè il numero di uscita neurone. Se lo ricavo, allora ottengo ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Simile alla regressione logistica. Tuttavia, questo è sbagliato …
Qualcuno può spiegare cosa fanno le unità maxout in una rete neurale? Come si comportano e in che cosa differiscono dalle unità convenzionali? Ho provato a leggere il documento "Maxout Network" del 2013 di Goodfellow et al. (dal gruppo del professor Yoshua Bengio), ma non capisco bene.
Lo slancio viene utilizzato per ridurre le fluttuazioni delle variazioni di peso su iterazioni consecutive:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), dove è la funzione di errore, - il vettore dei pesi, - tasso di apprendimento.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La riduzione del peso penalizza le variazioni di …
Perché la funzione sigmoide standard di fatto, 11+e−x11+e−x\frac{1}{1+e^{-x}} , è così popolare nelle reti neuronali (non profonde) e nella regressione logistica? Perché non usiamo molte delle altre funzioni derivabili, con tempi di calcolo più rapidi o decadimento più lento (quindi il gradiente di scomparsa si verifica meno). Alcuni esempi sono …
Mi sto solo bagnando i piedi nelle statistiche, quindi mi dispiace se questa domanda non ha senso. Ho usato i modelli Markov per prevedere stati nascosti (casinò ingiusti, lancio di dadi, ecc.) E reti neurali per studiare i clic degli utenti su un motore di ricerca. Entrambi avevano stati nascosti …
Ho trovato l'unità lineare rettificata (ReLU) elogiata in diversi punti come soluzione al problema del gradiente di fuga per le reti neurali. Cioè, si usa max (0, x) come funzione di attivazione. Quando l'attivazione è positiva, è ovvio che è meglio, per esempio, della funzione di attivazione sigmoidea, poiché la …
Sto cercando di prevedere il risultato di un sistema complesso che utilizza reti neurali (ANN). I valori di risultato (dipendenti) vanno da 0 a 10.000. Le diverse variabili di input hanno intervalli diversi. Tutte le variabili hanno distribuzioni approssimativamente normali. Considero diverse opzioni per ridimensionare i dati prima dell'allenamento. Un'opzione …
Nei documenti di classificazione di ImageNet i tassi di errore top-1 e top-5 sono unità importanti per misurare il successo di alcune soluzioni, ma quali sono questi tassi di errore? Nella classificazione ImageNet con reti neurali profonde convoluzionali di Krizhevsky et al. ogni soluzione basata su una sola CNN (pagina …
Le reti neurali sono spesso trattate come "scatole nere" a causa della loro struttura complessa. Questo non è l'ideale, in quanto è spesso utile avere una comprensione intuitiva del funzionamento interno di un modello. Quali sono i metodi per visualizzare il funzionamento di una rete neurale addestrata? In alternativa, come …
Un problema che ho visto spesso sollevato nel contesto delle reti neurali in generale, e delle reti neurali profonde in particolare, è che sono "affamati di dati", ovvero che non funzionano bene se non disponiamo di un set di dati di grandi dimensioni con cui addestrare la rete. La mia …
Sto allenando una rete neurale e la perdita di allenamento diminuisce, ma la perdita di validazione non lo fa, o diminuisce molto meno di quanto mi aspetterei, sulla base di riferimenti o esperimenti con architetture e dati molto simili. Come posso risolvere questo problema? Per quanto riguarda la domanda Cosa …
Prima di tutto, mi sono reso conto che se devo eseguire previsioni binarie, devo creare almeno due classi eseguendo una codifica a caldo. È corretto? Tuttavia, l'entropia incrociata binaria è solo per le previsioni con una sola classe? Se dovessi usare una categorica perdita di entropia che si trova in …
La funzione di costo della rete neurale è e si afferma che non sia convessa . Non capisco bene perché sia così, dal momento che come vedo è abbastanza simile alla funzione di costo della regressione logistica, giusto?J(W,b)J(W,b)J(W,b) Se non è convesso, quindi la derivata del 2 ° ordine , …
LSTM è stato inventato appositamente per evitare il problema del gradiente di sparizione. Si suppone che lo faccia con il Constant Error Carousel (CEC), che sul diagramma sottostante (da Greff et al. ) Corrisponde al loop attorno alla cella . (fonte: deeplearning4j.org ) E capisco che quella parte può essere …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.