Sto facendo alcune ricerche sulle tecniche di ottimizzazione per l'apprendimento automatico, ma sono sorpreso di trovare un gran numero di algoritmi di ottimizzazione definiti in termini di altri problemi di ottimizzazione. Illustrerò alcuni esempi di seguito. Ad esempio https://arxiv.org/pdf/1511.05133v1.pdf Sembra tutto bello e buono, ma poi c'è questo nel aggiornamento …
Recentemente c'è stata una domanda simile a ML su cstheory stackexchange e ho pubblicato una risposta raccomandando il metodo di Powell, la discesa del gradiente, gli algoritmi genetici o altri "algoritmi di approssimazione". In un commento qualcuno mi ha detto che questi metodi erano "euristica" e non "algoritmi di approssimazione" …
Mi chiedo se esiste sempre un massimizzatore per qualsiasi problema di stima della massima verosimiglianza? In altre parole, esiste una distribuzione e alcuni dei suoi parametri, per i quali il problema MLE non ha un massimizzatore? La mia domanda deriva da una dichiarazione di un ingegnere secondo cui la funzione …
Mi chiedevo quali sono i diversi casi d'uso per i due algoritmi, Coordinate Descent e Gradient Descent . So che la discesa delle coordinate ha problemi con funzioni non fluide, ma è utilizzata in algoritmi popolari come SVM e LASSO. Penso che la discesa gradiente sia usata più ampiamente, specialmente …
C'è un thread simile qui (la funzione di costo della rete neurale non è convessa? ) Ma non sono stato in grado di capire i punti nelle risposte lì e il mio motivo per chiedere di nuovo sperando che questo chiarisca alcuni problemi: Se utilizzo somma di funzione di costo …
Supponiamo di avere il seguente modello yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i dove , è un vettore di variabili esplicative, sono i parametri della funzione non lineare e , dove è naturalmente matrice.yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K L'obiettivo è il solito per stimare e \ Sigma . La scelta ovvia è il metodo della massima verosimiglianza. …
Perché è così comune ottenere stime della massima verosimiglianza dei parametri, ma non si sente praticamente mai delle stime dei parametri di verosimiglianza attese (cioè, basate sul valore atteso piuttosto che sulla modalità di una funzione di verosimiglianza)? Questo è principalmente per ragioni storiche o per ragioni tecniche o teoriche …
Devo implementare un programma che classificherà i record in 2 categorie (vero / falso) sulla base di alcuni dati di addestramento e mi chiedevo quale algoritmo / metodologia dovrei guardare. Sembra che ce ne siano molti tra cui scegliere: rete neurale artificiale, algoritmo genetico, apprendimento automatico, ottimizzazione bayesiana ecc. Ecc., …
Abbiamo molte buone discussioni sulla separazione perfetta nella regressione logistica. Come ad esempio, la regressione logistica in R ha provocato una separazione perfetta (fenomeno di Hauck-Donner). E adesso? e il modello di regressione logistica non converge . Personalmente ritengo ancora che non sia intuitivo il motivo per cui sarà un …
Conosco la definizione di matrice simmetrica positiva definita (SPD), ma voglio capire di più. Perché sono così importanti, intuitivamente? Ecco quello che so. Cos'altro? Per un dato dato, la matrice di varianza è SPD. La matrice di varianza è una metrica importante, vedi questo eccellente post per una spiegazione intuitiva. …
Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …
Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento? Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando …
Gli algoritmi genetici sono una forma di metodo di ottimizzazione. Spesso la discendenza stocastica a gradiente e i suoi derivati sono la scelta migliore per l'ottimizzazione delle funzioni, ma a volte vengono ancora utilizzati algoritmi genetici. Ad esempio, l'antenna del veicolo spaziale ST5 della NASA è stata creata con un …
Sono nuovo di ottimizzazione. Continuo a vedere equazioni che hanno un apice 2 e un pedice 2 sul lato destro di una norma. Ad esempio, ecco l'equazione dei minimi quadrati min | | Ax-b | |22||Ax−b||22 ||Ax-b||^2_2 Penso di capire l'apice 2: significa quadrare il valore della norma. Ma qual …
Esiste una definizione matematica o algoritmica di overfitting? Spesso le definizioni fornite sono il classico diagramma 2D di punti con una linea che attraversa ogni singolo punto e la curva di perdita di validazione sale improvvisamente. Ma esiste una definizione matematicamente rigorosa?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.