Questo è qualcosa che mi ha infastidito per un po 'e non ho trovato risposte soddisfacenti online, quindi ecco qui: Dopo aver esaminato una serie di lezioni sull'ottimizzazione convessa, il metodo di Newton sembra essere un algoritmo di gran lunga superiore alla discesa del gradiente per trovare soluzioni ottimali a …
Supponiamo di avere un set di addestramento per . Supponiamo inoltre di eseguire un qualche tipo di algoritmo di apprendimento supervisionato sul set di addestramento. Le ipotesi sono rappresentate come . Dobbiamo trovare i parametri che minimizzano la "distanza" tra e . Sia(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} …
Molti libri e tutorial sulla rete neurale impiegano molto tempo nell'algoritmo di backpropagation, che è essenzialmente uno strumento per calcolare il gradiente. Supponiamo che stiamo costruendo un modello con ~ 10K parametri / pesi. È possibile eseguire l'ottimizzazione utilizzando alcuni algoritmi di ottimizzazione senza gradiente? Penso che calcolare il gradiente …
La funzione di attivazione tanh è: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Dove σ(x)σ(x)\sigma(x) , la funzione sigmoide, è definita come: σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} . Domande: Importa davvero tra l'uso di queste due funzioni di attivazione (tanh vs. sigma)? Quale …
Nella maggior parte delle attività di apprendimento automatico in cui è possibile formulare alcune probabilità ppp che dovrebbero essere massimizzate, si dovrebbe effettivamente ottimizzare il registro probabilità logplogp\log p invece della probabilità per alcuni parametri θθ\theta . Ad esempio, nella formazione di massima verosimiglianza, di solito è la verosimiglianza. Quando …
La discesa gradiente e molti altri metodi sono utili per trovare minimi locali nelle funzioni di costo. Possono essere efficienti quando la funzione di costo può essere valutata rapidamente in ogni punto, sia numericamente che analiticamente. Ho quella che mi sembra una situazione insolita. Ogni valutazione della mia funzione di …
Ho letto molto su PCA, compresi vari tutorial e domande (come questo , questo , questo e questo ). Il problema geometrico che PCA sta cercando di ottimizzare è chiaro per me: PCA cerca di trovare il primo componente principale minimizzando l'errore di ricostruzione (proiezione), che massimizza simultaneamente la varianza …
Quindi la discesa gradiente basata sul momento funziona come segue: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g dove è il precedente aggiornamento del peso e è il gradiente corrente rispetto ai parametri , è la velocità …
In un recente post sul blog di Rong Ge, si diceva che: Si ritiene che per molti problemi tra cui l'apprendimento di reti profonde, quasi tutti i minimi locali abbiano un valore di funzione molto simile all'ottimale globale, e quindi trovare un minimo locale è abbastanza buono. Da dove viene …
Ho familiarità con gli algoritmi di base per la discesa del gradiente per l'addestramento delle reti neurali. Ho letto l'articolo che propone Adam: ADAM: UN METODO PER L'OTTIMIZZAZIONE STOCASTICA . Anche se ho sicuramente avuto alcune intuizioni (almeno), il documento sembra essere di livello troppo alto per me nel complesso. …
Lo slancio viene utilizzato per ridurre le fluttuazioni delle variazioni di peso su iterazioni consecutive:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), dove è la funzione di errore, - il vettore dei pesi, - tasso di apprendimento.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La riduzione del peso penalizza le variazioni di …
Attualmente sto esaminando la ricerca casuale di Bengio e Bergsta per l'ottimizzazione dell'iper -parametro [1], in cui gli autori affermano che la ricerca casuale è più efficiente della ricerca in griglia per ottenere prestazioni approssimativamente uguali. La mia domanda è: le persone qui sono d'accordo con tale affermazione? Nel mio …
Derivare numericamente gli MLE di GLMM è difficile e, in pratica, lo so, non dovremmo usare l'ottimizzazione della forza bruta (ad esempio, usando optimin modo semplice). Ma per il mio scopo educativo, voglio provarlo per assicurarmi di capire correttamente il modello (vedi il codice qui sotto). Ho scoperto che ottengo …
Qualcuno può darmi qualche intuizione su quando scegliere SVM o LR? Voglio capire l'intuizione dietro qual è la differenza tra i criteri di ottimizzazione dell'apprendimento dell'iperpiano dei due, in cui i rispettivi obiettivi sono i seguenti: SVM: prova a massimizzare il margine tra i vettori di supporto più vicini LR: …
Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.