Domande taggate «optimization»

Usa questo tag per qualsiasi utilizzo dell'ottimizzazione all'interno delle statistiche.




2
Come scegliere il giusto algoritmo di ottimizzazione?
Devo trovare il minimo di una funzione. Leggendo i documenti su http://docs.scipy.org/doc/scipy/reference/optimize.html Vedo che ci sono diversi algoritmi che fanno la stessa cosa, cioè trovano il minimo. Come faccio a sapere quale dovrei scegliere? alcuni degli algoritmi elencati Ridurre a icona una funzione utilizzando l'algoritmo simplex in discesa. Ridurre a …

2
Perché l'ottimizzazione delle aspettative è importante per i modelli di miscele?
Ci sono molte pubblicazioni che enfatizzano il metodo di massimizzazione delle aspettative su modelli di miscele (Miscela di gaussiana, modello nascosto di Markov, ecc.). Perché EM è importante? EM è solo un modo per fare l'ottimizzazione e non è ampiamente usato come metodo basato sul gradiente (gradiente decente o metodo …

1
In che modo la discesa gradiente stocastica può far risparmiare tempo rispetto alla discesa gradiente standard?
Discesa gradiente standard calcolerebbe il gradiente per l'intero set di dati di allenamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Per un numero predefinito di epoche, prima calcoliamo il vettore gradiente weights_grad della funzione di perdita per l'intero set di dati …

1
Chiarimento sull'implementazione della Discendenza della regola di Perceptron rispetto alla discesa del gradiente rispetto alla discesa del gradiente stocastico
Ho sperimentato un po 'con diverse implementazioni di Perceptron e voglio assicurarmi di capire correttamente le "iterazioni". La regola originale del percettrone di Rosenblatt A quanto ho capito, nel classico algoritmo perceptron di Rosenblatt, i pesi vengono aggiornati simultaneamente dopo ogni esempio di allenamento tramite Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target …

2
Stima ARIMA a mano
Sto cercando di capire come vengono stimati i parametri nella modellazione ARIMA / Box Jenkins (BJ). Sfortunatamente nessuno dei libri che ho incontrato descrive in dettaglio la procedura di stima come la procedura di stima Log-Likelihood. Ho trovato il sito web / materiale didattico molto utile. Di seguito è riportata …




1
Perché è importante includere un termine di correzione della distorsione per l'ottimizzatore Adam per Deep Learning?
Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Begnio, Goodfellow e Courtville: Adam include correzioni di bias alle stime sia dei momenti del primo ordine (il termine momentum) sia dei momenti (non centrati) del secondo ordine per tenere …


1
Perché non usiamo tassi di apprendimento non costanti per gradienti decenti per cose diverse dalle reti neurali?
La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle …

1
Probabilità massima limitata con un rango di colonna inferiore a
Questa domanda riguarda la stima della massima verosimiglianza limitata (REML) in una particolare versione del modello lineare, vale a dire: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), dove X(α)X(α)X(\alpha) è una matrice ( n×pn×pn \times p ) parametrizzata da α∈Rkα∈Rk\alpha \in \mathbb R^k , così come Σ(α)Σ(α)\Sigma(\alpha) …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.