Di recente ho letto un articolo di Yann Dauphin et al. Identificazione e attacco del problema del punto di sella nell'ottimizzazione non convessa ad alta dimensione , in cui introducono un interessante algoritmo di discesa chiamato Saddle-Free Newton , che sembra essere esattamente su misura per l'ottimizzazione della rete neurale …
Questa domanda ha già risposte qui : Algoritmo di backpropagation (2 risposte) Chiuso 3 mesi fa . Cos'è l'algoritmo di retro-propagazione e come funziona?
Sto cercando di ottimizzare gli iperparametri dell'algoritmo di regressione del processo gaussiano che ho implementato. Voglio semplicemente massimizzare la verosimiglianza marginale data dalla formula dove K è la matrice di covarianza con il elementi K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac …
La funzione oggettiva dell'analisi dei componenti principali (PCA) è ridurre al minimo l'errore di ricostruzione nella norma L2 (vedere la sezione 2.12 qui . Un'altra visione sta cercando di massimizzare la varianza sulla proiezione. Abbiamo anche un post eccellente qui: qual è la funzione oggettiva della PCA ? ). La …
Ecco il problema di deviazione meno assoluto in questione: argminwL(w)=∑ni=1|yi−wTx|argminwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| . So che può essere riorganizzato come problema LP nel seguente modo: min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Ma non ho idea di risolverlo passo dopo passo, …
TL; DR: l' lme4ottimizzazione sembra essere lineare nel numero di parametri del modello per impostazione predefinita ed è molto più lenta di un glmmodello equivalente con variabili fittizie per gruppi. C'è qualcosa che posso fare per accelerarlo? Sto cercando di adattare un modello logit gerarchico abbastanza grande (~ 50k righe, …
L'uso di "variazionale" si riferisce sempre all'ottimizzazione tramite inferenza variazionale? Esempi: "Auto-codificatore variabile" "Metodi bayesiani variazionali" "Gruppo di rinormalizzazione variazionale"
Sto eseguendo esperimenti sul set di validazione EMNIST usando le reti con RMSProp, Adam e SGD. Sto ottenendo una precisione dell'87% con SGD (tasso di apprendimento di 0,1) e dropout (0.1 drop prob) e regolarizzazione L2 (penalità 1e-05). Quando collaudo la stessa configurazione esatta con RMSProp e Adam, nonché il …
Ecco un esempio di codice keras che lo utilizza: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Nell'apprendimento automatico (per problemi di regressione), vedo spesso errore medio quadrato (MSE) o errore assoluto medio (MAE) utilizzato come funzione di errore per minimizzare (oltre al termine di regolarizzazione). Mi chiedo se ci sono situazioni in cui l'uso del coefficiente di correlazione sarebbe più appropriato? se tale situazione esiste, quindi: …
Per evitare il sovradimensionamento delle persone, le persone aggiungono un termine di regolarizzazione (proporzionale alla somma quadrata dei parametri del modello) con un parametro di regolarizzazione alla funzione di costo della regressione lineare. Questo parametro lo stesso di un moltiplicatore di lagrange? Quindi la regolarizzazione è la stessa del metodo …
Volevo capire meglio il test esatto del pescatore, quindi ho escogitato il seguente esempio di giocattolo, dove f e m corrispondono a maschio e femmina e n e y corrispondono a "consumo di soda" in questo modo: > soda_gender f m n 0 5 y 5 0 Ovviamente, questa è …
Sto cercando di comprendere il processo di addestramento di una macchina vettoriale di supporto lineare . Mi rendo conto che le proprietà degli SMV consentono loro di essere ottimizzate molto più rapidamente rispetto all'utilizzo di un risolutore di programmazione quadratico, ma a fini di apprendimento mi piacerebbe vedere come funziona. …
Ho una funzione di verosimiglianza per la probabilità dei miei dati dati alcuni parametri del modello , che vorrei stimare. Assumendo priori piatti sui parametri, la probabilità è proporzionale alla probabilità posteriore. Uso un metodo MCMC per provare questa probabilità.L (d| θ)L(d|θ)\mathcal{L}(d | \theta)dddθ ∈ RNθ∈RN\theta \in \mathbf{R}^N Osservando la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.