Domande taggate «optimization»

Usa questo tag per qualsiasi utilizzo dell'ottimizzazione all'interno delle statistiche.


3
Discesa discendente in pendenza rispetto alla discesa gradiente stocastica
Supponiamo di avere un set di addestramento per . Supponiamo inoltre di eseguire un qualche tipo di algoritmo di apprendimento supervisionato sul set di addestramento. Le ipotesi sono rappresentate come . Dobbiamo trovare i parametri che minimizzano la "distanza" tra e . Sia(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} …

6
È possibile addestrare una rete neurale senza backpropagation?
Molti libri e tutorial sulla rete neurale impiegano molto tempo nell'algoritmo di backpropagation, che è essenzialmente uno strumento per calcolare il gradiente. Supponiamo che stiamo costruendo un modello con ~ 10K parametri / pesi. È possibile eseguire l'ottimizzazione utilizzando alcuni algoritmi di ottimizzazione senza gradiente? Penso che calcolare il gradiente …

2
funzione di attivazione tanh vs funzione di attivazione sigmoid
La funzione di attivazione tanh è: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Dove σ(x)σ(x)\sigma(x) , la funzione sigmoide, è definita come: σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} . Domande: Importa davvero tra l'uso di queste due funzioni di attivazione (tanh vs. sigma)? Quale …

7
Perché ottimizzare la probabilità massima di registro anziché la probabilità
Nella maggior parte delle attività di apprendimento automatico in cui è possibile formulare alcune probabilità ppp che dovrebbero essere massimizzate, si dovrebbe effettivamente ottimizzare il registro probabilità logplog⁡p\log p invece della probabilità per alcuni parametri θθ\theta . Ad esempio, nella formazione di massima verosimiglianza, di solito è la verosimiglianza. Quando …


5
Qual è una spiegazione intuitiva di come PCA passa da un problema geometrico (con le distanze) a un problema di algebra lineare (con autovettori)?
Ho letto molto su PCA, compresi vari tutorial e domande (come questo , questo , questo e questo ). Il problema geometrico che PCA sta cercando di ottimizzare è chiaro per me: PCA cerca di trovare il primo componente principale minimizzando l'errore di ricostruzione (proiezione), che massimizza simultaneamente la varianza …




1
Reti neurali: momento di variazione del peso e decadimento del peso
Lo slancio viene utilizzato per ridurre le fluttuazioni delle variazioni di peso su iterazioni consecutive:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), dove è la funzione di errore, - il vettore dei pesi, - tasso di apprendimento.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La riduzione del peso penalizza le variazioni di …


1
Perché glmer non raggiunge la massima probabilità (come verificato applicando un'ulteriore ottimizzazione generica)?
Derivare numericamente gli MLE di GLMM è difficile e, in pratica, lo so, non dovremmo usare l'ottimizzazione della forza bruta (ad esempio, usando optimin modo semplice). Ma per il mio scopo educativo, voglio provarlo per assicurarmi di capire correttamente il modello (vedi il codice qui sotto). Ho scoperto che ottengo …

3
Confronto tra SVM e regressione logistica
Qualcuno può darmi qualche intuizione su quando scegliere SVM o LR? Voglio capire l'intuizione dietro qual è la differenza tra i criteri di ottimizzazione dell'apprendimento dell'iperpiano dei due, in cui i rispettivi obiettivi sono i seguenti: SVM: prova a massimizzare il margine tra i vettori di supporto più vicini LR: …

5
Puoi esagerare con l'addestramento degli algoritmi di machine learning usando CV / Bootstrap?
Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.