Stavo leggendo il documento di normalizzazione in lotti (BN) (1) e non capivo la necessità di utilizzare le medie mobili per tenere traccia dell'accuratezza del modello e anche se ho accettato che era la cosa giusta da fare, non capisco cosa stanno facendo esattamente. Per quanto ne so (che ho …
Nell'implementazione di ResNet di Tensorflow , trovo che utilizzino l'inizializzatore di ridimensionamento della varianza, trovo anche che l'inizializzatore di xavier sia popolare. Non ho troppa esperienza su questo, che è meglio in pratica?
Al giorno d'oggi, con tutti i media e le discussioni sull'apprendimento profondo, ho letto alcune cose elementari al riguardo. Ho appena scoperto che è solo un altro metodo di apprendimento automatico per apprendere modelli dai dati. Ma la mia domanda è: dove brilla e perché questo metodo brilla? Perché tutti …
Ho un modello di rete neurale profondo e ho bisogno di addestrarlo sul mio set di dati che comprende circa 100.000 esempi, i miei dati di validazione contengono circa 1000 esempi. Poiché ci vuole tempo per addestrare ogni esempio (circa 0,5 secondi per ogni esempio) e per evitare un eccesso …
Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …
Sono curioso di sapere quanto sia importante il nodo di polarizzazione per l'efficacia delle moderne reti neurali. Posso facilmente capire che può essere importante in una rete poco profonda con solo poche variabili di input. Tuttavia, le moderne reti neurali come l'apprendimento profondo spesso hanno un gran numero di variabili …
Comprendo i livelli convoluzionali e di raggruppamento, ma non riesco a vedere il motivo di un livello completamente connesso nelle CNN. Perché il livello precedente non è collegato direttamente al livello di output?
Comprendo la struttura di base del codificatore automatico variazionale e del codificatore automatico (deterministico) e la matematica che sta dietro, ma quando e perché preferirei un tipo di codificatore automatico all'altro? Tutto quello a cui riesco a pensare è che la precedente distribuzione di variabili latenti di autoencoder variazionale ci …
C'è qualche differenza tra "apprendimento del trasferimento" e "adattamento del dominio"? Non conosco il contesto, ma la mia comprensione è che abbiamo un set di dati 1 e ci alleniamo su di esso, dopo di che abbiamo un altro set di dati 2 per il quale vogliamo adattare il nostro …
Le reti neurali convoluzionali più comuni contengono livelli di pool per ridurre le dimensioni delle funzionalità di output. Perché non sono riuscito a ottenere la stessa cosa semplicemente aumentando il passo del livello convoluzionale? Cosa rende necessario il livello di pooling?
I miei professori di fisica alla scuola elementare, così come il premio Nobel Feynman, presentavano sempre quelli che chiamavano modelli di giocattoli per illustrare concetti e metodi di base in fisica, come l'oscillatore armonico, il pendolo, la trottola e la scatola nera. Quali modelli di giocattoli vengono utilizzati per illustrare …
Sto cercando documenti o testi che confrontino e discutano (empiricamente o teoricamente): Accrescere e Decision Trees algoritmi come casuali Foreste o AdaBoost e GentleBoost applicati agli alberi decisionali. con Metodi di apprendimento profondo come macchine Boltzmann limitate , memoria temporale gerarchica , reti neurali convoluzionali , ecc. Più specificamente, qualcuno …
Molti tutorial online parlano della discesa del gradiente e quasi tutti usano un passo fisso (tasso di apprendimento ). Perché la ricerca della linea non viene utilizzata (come la ricerca della riga di backtracking o la ricerca della riga esatta)?αα\alpha
Definiamo un'epoca come aver esaminato tutti i campioni di addestramento disponibili e le dimensioni del mini-lotto come il numero di campioni su cui calcoliamo la media per trovare gli aggiornamenti ai pesi / errori necessari per scendere il gradiente. La mia domanda è se dovremmo trarre senza sostituzione dall'insieme degli …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.