Domande taggate «gradient-descent»

La discesa gradiente è un algoritmo di ottimizzazione iterativa di primo ordine. Per trovare un minimo locale di una funzione usando la discesa gradiente, si procede in modo proporzionale al negativo del gradiente (o del gradiente approssimativo) della funzione nel punto corrente. Per la discesa gradiente stocastica c'è anche il tag [sgd].




6
Per problemi convessi, il gradiente in Discesa gradiente stocastica (SGD) indica sempre il valore estremo globale?
Data una funzione di costo convesso, usando SGD per l'ottimizzazione, avremo un gradiente (vettore) ad un certo punto durante il processo di ottimizzazione. La mia domanda è, dato il punto sul convesso, il gradiente punta solo nella direzione in cui la funzione aumenta / diminuisce più velocemente, oppure il gradiente …


3
Discesa coordinata vs. pendenza
Mi chiedevo quali sono i diversi casi d'uso per i due algoritmi, Coordinate Descent e Gradient Descent . So che la discesa delle coordinate ha problemi con funzioni non fluide, ma è utilizzata in algoritmi popolari come SVM e LASSO. Penso che la discesa gradiente sia usata più ampiamente, specialmente …

1
Backpropagation gradiente tramite connessioni salta ResNet
Sono curioso di sapere come i gradienti vengono retro-propagati attraverso una rete neurale usando i moduli ResNet / salta le connessioni. Ho visto un paio di domande su ResNet (ad es. Rete neurale con connessioni skip-layer ) ma questa fa domande specifiche sulla retro-propagazione dei gradienti durante l'allenamento. L'architettura di …



3
Dalla regola Perceptron alla Discesa del gradiente: in che modo Perceptrons con una funzione di attivazione sigmoidea differisce dalla regressione logistica?
In sostanza, la mia domanda è che nei Perceptron multistrato, i percettroni sono usati con una funzione di attivazione sigmoidea. In modo che nella regola di aggiornamento sia calcolato comey^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} In che modo questo "sigmoide" Perceptron differisce quindi da una regressione logistica? Direi che un percettrone sigmoideo …

2
Nelle reti neurali, perché usare metodi a gradiente piuttosto che altre metaeuristiche?
Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …





Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.