Da qualsiasi algoritmo di campionamento generico, si può derivare un algoritmo di ottimizzazione. Infatti, per massimizzare una funzione arbitraria , è sufficiente estrarre campioni da . Per abbastanza piccolo, questi campioni cadranno vicino al massimo globale (o ai massimi locali in pratica) della funzione .g ∼ e f / Tf: …
Sto cercando di ridurre a icona una funzione personalizzata. Dovrebbe accettare cinque parametri e il set di dati ed eseguire tutti i tipi di calcoli, producendo un singolo numero come output. Voglio trovare una combinazione di cinque parametri di input che produce il più piccolo output della mia funzione.
Molti tutorial online parlano della discesa del gradiente e quasi tutti usano un passo fisso (tasso di apprendimento ). Perché la ricerca della linea non viene utilizzata (come la ricerca della riga di backtracking o la ricerca della riga esatta)?αα\alpha
Ho visto conclusioni simili da molte discussioni, che con l'aumentare delle dimensioni del minibatch la convergenza di SGD diventa effettivamente più difficile / peggio, ad esempio questo documento e questa risposta . Ho anche sentito parlare di persone che usano trucchi come piccoli tassi di apprendimento o dimensioni dei lotti …
Perché l'utilizzo del metodo di Newton per l'ottimizzazione della regressione logistica si chiama minimi quadrati iterativi ripesati? Non mi sembra chiaro perché la perdita logistica e la perdita dei minimi quadrati sono cose completamente diverse.
Definiamo un'epoca come aver esaminato tutti i campioni di addestramento disponibili e le dimensioni del mini-lotto come il numero di campioni su cui calcoliamo la media per trovare gli aggiornamenti ai pesi / errori necessari per scendere il gradiente. La mia domanda è se dovremmo trarre senza sostituzione dall'insieme degli …
Sto solo imparando l'ottimizzazione e ho difficoltà a capire la differenza tra ottimizzazione convessa e non convessa. Secondo la mia comprensione, una funzione convessa è quella in cui "il segmento di linea tra due punti qualsiasi sul grafico della funzione si trova sopra o sul grafico". In questo caso, è …
Immagino che questa sia una domanda di base e abbia a che fare con la direzione del gradiente stesso, ma sto cercando esempi in cui i metodi del 2 ° ordine (ad es. BFGS ) sono più efficaci della semplice discesa del gradiente.
È possibile eseguire una regressione del log in R utilizzando tale codice: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Sembra che l'algoritmo di ottimizzazione sia converto - ci sono informazioni sul numero di passaggi dell'algoritmo di punteggio …
Ho trovato questa implementazione di Python del Breaks Jenks naturale algoritmo e ho potuto farlo funzionare sulla mia macchina Windows 7. È abbastanza veloce e trova le pause in poco tempo, considerando le dimensioni dei miei geodati. Prima di utilizzare questo algoritmo di clustering per i miei dati, stavo usando …
Sto cercando di usare la perdita quadrata per fare la classificazione binaria su un set di dati giocattolo. Sto usando il mtcarsset di dati, uso il miglio per gallone e il peso per prevedere il tipo di trasmissione. Il diagramma seguente mostra i due tipi di dati del tipo di …
Provo a riprodurre con optimi risultati di una semplice regressione lineare dotata di glmo anche nlsfunzioni R. Le stime dei parametri sono le stesse ma la stima della varianza residua e gli errori standard degli altri parametri non sono gli stessi, in particolare quando la dimensione del campione è bassa. …
Sto usando la glmerfunzione dal lme4pacchetto in R, e sto usando l' bobyqaottimizzatore (cioè il valore predefinito nel mio caso). Ricevo un avviso e sono curioso di sapere cosa significhi. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust …
Ho cercato di codificare un algoritmo per suggerire scommesse in giochi 1X2 (ponderati). Fondamentalmente, ogni partita ha una serie di partite (squadre in casa vs squadre in trasferta): 1: vince la casa X: disegnare 2: vince via Per ogni partita e simbolo ( 1, Xe 2), assegnerò una percentuale che …
Sono curioso di sapere perché trattiamo GLMS come se fossero un problema di ottimizzazione speciale. Sono loro? Mi sembra che siano solo la massima verosimiglianza e che annotiamo la verosimiglianza e poi ... la massimizziamo! Quindi, perché utilizziamo il punteggio di Fisher anziché una miriade di schemi di ottimizzazione sviluppati …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.