Statistiche e Big Data gradient-descent

6

Perché non usare la terza derivata per l'ottimizzazione numerica?

Se gli hessiani sono così buoni per l'ottimizzazione (vedi ad esempio il metodo di Newton ), perché fermarsi qui? Usiamo il terzo, il quarto, il quinto e il sesto derivato? Perchè no?

29 optimization gradient-descent hessian

4

Come viene derivata la funzione di costo dalla regressione logistica

Sto facendo il corso di Machine Learning Stanford su Coursera. Nel capitolo sulla regressione logistica, la funzione di costo è questa: Quindi, è derivato qui: Ho provato a ottenere la derivata della funzione di costo ma ho ottenuto qualcosa di completamente diverso. Come si ottiene il derivato? Quali sono i …

29 regression logistic gradient-descent derivative

2

Qual è la differenza tra EM e Gradient Ascent?

Qual è la differenza tra gli algoritmi EM (Expectation Maximization) e Gradient Ascent (o descent)? C'è qualche condizione in base alla quale sono equivalenti?

28 gradient-descent expectation-maximization

6

Per problemi convessi, il gradiente in Discesa gradiente stocastica (SGD) indica sempre il valore estremo globale?

Data una funzione di costo convesso, usando SGD per l'ottimizzazione, avremo un gradiente (vettore) ad un certo punto durante il processo di ottimizzazione. La mia domanda è, dato il punto sul convesso, il gradiente punta solo nella direzione in cui la funzione aumenta / diminuisce più velocemente, oppure il gradiente …

25 neural-networks optimization gradient-descent sgd convex

1

Come definire la condizione di terminazione per la discesa gradiente?

In realtà, volevo chiederti come posso definire la condizione terminale per la discesa del gradiente. Posso interromperlo in base al numero di iterazioni, ovvero considerando i valori dei parametri per, diciamo, 100 iterazioni? O dovrei aspettare in modo tale che i diversi valori dei due parametri "nuovo" e "vecchio" siano …

24 algorithms optimization gradient-descent

3

Discesa coordinata vs. pendenza

Mi chiedevo quali sono i diversi casi d'uso per i due algoritmi, Coordinate Descent e Gradient Descent . So che la discesa delle coordinate ha problemi con funzioni non fluide, ma è utilizzata in algoritmi popolari come SVM e LASSO. Penso che la discesa gradiente sia usata più ampiamente, specialmente …

23 optimization gradient-descent

1

Backpropagation gradiente tramite connessioni salta ResNet

Sono curioso di sapere come i gradienti vengono retro-propagati attraverso una rete neurale usando i moduli ResNet / salta le connessioni. Ho visto un paio di domande su ResNet (ad es. Rete neurale con connessioni skip-layer ) ma questa fa domande specifiche sulla retro-propagazione dei gradienti durante l'allenamento. L'architettura di …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

Perché usare la discesa gradiente con le reti neurali?

Durante l'allenamento di una rete neurale mediante l'algoritmo di retro-propagazione, il metodo di discesa del gradiente viene utilizzato per determinare gli aggiornamenti del peso. La mia domanda è: anziché utilizzare il metodo di discesa gradiente per individuare lentamente il punto minimo rispetto a un determinato peso, perché non impostare semplicemente …

22 neural-networks gradient-descent backpropagation

3

La pendenza del gradiente è possibile per SVM con kernel (se sì, perché le persone usano la programmazione quadratica)?

Perché le persone usano tecniche di programmazione quadratica (come SMO) quando hanno a che fare con SVM con kernel? Cosa c'è di sbagliato nella discesa del gradiente? È impossibile da usare con i kernel o è troppo lento (e perché?). Ecco un po 'più di contesto: cercando di capire un …

21 svm kernel-trick gradient-descent

3

Dalla regola Perceptron alla Discesa del gradiente: in che modo Perceptrons con una funzione di attivazione sigmoidea differisce dalla regressione logistica?

In sostanza, la mia domanda è che nei Perceptron multistrato, i percettroni sono usati con una funzione di attivazione sigmoidea. In modo che nella regola di aggiornamento sia calcolato comey^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} In che modo questo "sigmoide" Perceptron differisce quindi da una regressione logistica? Direi che un percettrone sigmoideo …

21 logistic classification neural-networks gradient-descent perceptron

2

Nelle reti neurali, perché usare metodi a gradiente piuttosto che altre metaeuristiche?

Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …

20 neural-networks optimization deep-learning gradient-descent backpropagation

3

Quando gli algoritmi genetici sono una buona scelta per l'ottimizzazione?

Gli algoritmi genetici sono una forma di metodo di ottimizzazione. Spesso la discendenza stocastica a gradiente e i suoi derivati sono la scelta migliore per l'ottimizzazione delle funzioni, ma a volte vengono ancora utilizzati algoritmi genetici. Ad esempio, l'antenna del veicolo spaziale ST5 della NASA è stata creata con un …

20 machine-learning optimization gradient-descent genetic-algorithms

3

Possono esserci più soluzioni ottimali locali quando risolviamo una regressione lineare?

Ho letto questa affermazione su un vecchio esame vero / falso: Siamo in grado di ottenere soluzioni ottimali locali multiple se risolviamo un problema di regressione lineare riducendo al minimo la somma degli errori al quadrato mediante la discesa del gradiente. Soluzione: falsa La mia domanda è: quale parte di …

19 least-squares gradient-descent convex

3

Come può la discesa stocastica del gradiente evitare il problema di un minimo locale?

So che la discesa gradiente stocastica ha un comportamento casuale, ma non so perché. C'è qualche spiegazione al riguardo?

19 machine-learning random-variable gradient-descent

3

In che modo la dimensione del lotto influenza la convergenza di SGD e perché?

Ho visto conclusioni simili da molte discussioni, che con l'aumentare delle dimensioni del minibatch la convergenza di SGD diventa effettivamente più difficile / peggio, ad esempio questo documento e questa risposta . Ho anche sentito parlare di persone che usano trucchi come piccoli tassi di apprendimento o dimensioni dei lotti …

18 machine-learning neural-networks optimization gradient-descent sgd

Domande taggate «gradient-descent»