Sto riscontrando problemi nel comprendere il modello skip-gram dell'algoritmo Word2Vec. Nel bag-of-word continuo è facile vedere come le parole di contesto possano "adattarsi" alla rete neurale, dal momento che in pratica le si calcola in media dopo aver moltiplicato ciascuna delle rappresentazioni di codifica a caldo singolo con la matrice …
Supponiamo che io voglia imparare un classificatore che accetta un vettore di numeri come input e fornisce un'etichetta di classe come output. I miei dati di allenamento consistono in un gran numero di coppie input-output. Tuttavia, quando vengo a provare alcuni nuovi dati, questi dati sono in genere solo parzialmente …
Sto lottando per stabilire la connessione matematica tra una rete neurale e un modello grafico. Nei modelli grafici l'idea è semplice: la distribuzione di probabilità fattorizza secondo le cricche nel grafico, con i potenziali che normalmente sono della famiglia esponenziale. Esiste un ragionamento equivalente per una rete neurale? Si può …
Sono interessato a (Deep) Reinforcement Learning (RL) . Prima di immergermi in questo campo dovrei seguire un corso in Game Theory (GT) ? Come sono correlati GT e RL ?
In che modo le mappe di attivazione di un determinato livello sono collegate ai filtri per quel livello? Non sto chiedendo come fare un'operazione convoluzionale tra il filtro e la mappa di attivazione, sto chiedendo del tipo di connettività che hanno questi due. Ad esempio, supponiamo che tu voglia fare …
Quando si implementa un autoencoder con rete neurale, la maggior parte delle persone utilizzerà sigmoid come funzione di attivazione. Possiamo usare ReLU invece? (Dato che ReLU non ha limiti sul limite superiore, ciò significa sostanzialmente che l'immagine in ingresso può avere pixel più grandi di 1, a differenza dei criteri …
Stavo implementando un articolo piuttosto popolare " SPIEGAZIONE E CABLAGGIO DI ESEMPI AVVERSARI " e nel documento, forma una funzione oggettiva contraddittoria J '' (θ) = αJ (θ) + (1 - α) J '(θ). Tratta α come iperparametro. α può essere 0,1, 0,2, 0,3, ecc. Indipendentemente da questo documento specifico, …
Qual è la differenza tra Bayes variazionali a codifica automatica e Backpropagation stocastica per modelli generativi profondi ? L'inferenza in entrambi i metodi porta agli stessi risultati? Non sono a conoscenza di confronti espliciti tra i due metodi, nonostante entrambi i gruppi di autori si citino l'un l'altro.
Sto lavorando al documento Cho 2014 che ha introdotto l'architettura encoder-decoder per la modellazione seq2seq. Nel documento, sembrano usare la probabilità dell'input dato input (o è la probabilità di log negativo) come funzione di perdita per un input di lunghezza M e output y di lunghezza N :XXxMMMyyyNNN P( y1, …
In termini di differenza tra la rete neurale e il deep learning, possiamo elencare diversi elementi, come sono inclusi più livelli, un set di dati di massa, un potente hardware per rendere possibile l'addestramento di modelli complicati. Oltre a questi, ci sono spiegazioni più dettagliate riguardo alla differenza tra NN …
Esiste una regola empirica tra la profondità di una rete neurale e il tasso di apprendimento? Ho notato che più profonda è la rete, più basso deve essere il tasso di apprendimento. Se è corretto, perché?
È possibile formare una rete neurale per disegnare un'immagine in un certo stile? (Quindi prende un'immagine e la ridisegna in uno stile per cui è stata addestrata.) Esiste una tecnologia approvata per questo genere di cose? Conosco l'algoritmo DeepArt. È utile riempire l'immagine principale con un certo motivo (ad esempio …
Quando si vorrebbe eseguire il clipping gradiente durante l'allenamento di un RNN o CNN? Sono particolarmente interessato a quest'ultimo. Quale sarebbe un buon valore iniziale per il clipping? (ovviamente può essere sintonizzato)
Nell'attività di visione artificiale, come la classificazione degli oggetti, con Convolutional Neural Networks (CNN), la rete offre prestazioni interessanti. Ma non sono sicuro di come impostare i parametri in strati convoluzionali. Ad esempio, un'immagine in scala di grigi ( 480x480), il primo livello convoluzionale può usare un operatore convoluzionale come …
Nel recente documento WaveNet , gli autori fanno riferimento al loro modello come se avessero strati sovrapposti di convoluzioni dilatate. Producono anche i seguenti grafici, che spiegano la differenza tra convoluzioni 'regolari' e convoluzioni dilatate. Le convoluzioni regolari sembrano Questa è una convoluzione con una dimensione del filtro di 2 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.