Statistiche e Big Data optimization

4

Perché gli algoritmi di ottimizzazione sono definiti in termini di altri problemi di ottimizzazione?

Sto facendo alcune ricerche sulle tecniche di ottimizzazione per l'apprendimento automatico, ma sono sorpreso di trovare un gran numero di algoritmi di ottimizzazione definiti in termini di altri problemi di ottimizzazione. Illustrerò alcuni esempi di seguito. Ad esempio https://arxiv.org/pdf/1511.05133v1.pdf Sembra tutto bello e buono, ma poi c'è questo nel aggiornamento …

23 machine-learning svm optimization

2

Le tecniche di apprendimento automatico sono "algoritmi di approssimazione"?

Recentemente c'è stata una domanda simile a ML su cstheory stackexchange e ho pubblicato una risposta raccomandando il metodo di Powell, la discesa del gradiente, gli algoritmi genetici o altri "algoritmi di approssimazione". In un commento qualcuno mi ha detto che questi metodi erano "euristica" e non "algoritmi di approssimazione" …

23 machine-learning optimization approximation

4

Esiste sempre un ottimizzatore per qualsiasi problema MLE?

Mi chiedo se esiste sempre un massimizzatore per qualsiasi problema di stima della massima verosimiglianza? In altre parole, esiste una distribuzione e alcuni dei suoi parametri, per i quali il problema MLE non ha un massimizzatore? La mia domanda deriva da una dichiarazione di un ingegnere secondo cui la funzione …

23 maximum-likelihood optimization

3

Discesa coordinata vs. pendenza

Mi chiedevo quali sono i diversi casi d'uso per i due algoritmi, Coordinate Descent e Gradient Descent . So che la discesa delle coordinate ha problemi con funzioni non fluide, ma è utilizzata in algoritmi popolari come SVM e LASSO. Penso che la discesa gradiente sia usata più ampiamente, specialmente …

23 optimization gradient-descent

1

Perché la funzione di costo delle reti neurali non è convessa?

C'è un thread simile qui (la funzione di costo della rete neurale non è convessa? ) Ma non sono stato in grado di capire i punti nelle risposte lì e il mio motivo per chiedere di nuovo sperando che questo chiarisca alcuni problemi: Se utilizzo somma di funzione di costo …

22 machine-learning neural-networks optimization loss-functions convex

4

Come garantire le proprietà della matrice di covarianza quando si adatta il modello normale multivariato utilizzando la massima probabilità?

Supponiamo di avere il seguente modello yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i dove , è un vettore di variabili esplicative, sono i parametri della funzione non lineare e , dove è naturalmente matrice.yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K L'obiettivo è il solito per stimare e \ Sigma . La scelta ovvia è il metodo della massima verosimiglianza. …

22 maximum-likelihood optimization covariance

3

Perché la massima probabilità e la probabilità non prevista?

Perché è così comune ottenere stime della massima verosimiglianza dei parametri, ma non si sente praticamente mai delle stime dei parametri di verosimiglianza attese (cioè, basate sul valore atteso piuttosto che sulla modalità di una funzione di verosimiglianza)? Questo è principalmente per ragioni storiche o per ragioni tecniche o teoriche …

22 probability mathematical-statistics maximum-likelihood optimization expected-value

2

Come scegliere tra algoritmi di apprendimento

Devo implementare un programma che classificherà i record in 2 categorie (vero / falso) sulla base di alcuni dati di addestramento e mi chiedevo quale algoritmo / metodologia dovrei guardare. Sembra che ce ne siano molti tra cui scegliere: rete neurale artificiale, algoritmo genetico, apprendimento automatico, ottimizzazione bayesiana ecc. Ecc., …

21 machine-learning bayesian optimization genetic-algorithms

1

Esiste una spiegazione intuitiva del perché la regressione logistica non funzionerà per un caso di separazione perfetta? E perché l'aggiunta di regolarizzazione lo risolverà?

Abbiamo molte buone discussioni sulla separazione perfetta nella regressione logistica. Come ad esempio, la regressione logistica in R ha provocato una separazione perfetta (fenomeno di Hauck-Donner). E adesso? e il modello di regressione logistica non converge . Personalmente ritengo ancora che non sia intuitivo il motivo per cui sarà un …

20 logistic generalized-linear-model optimization intuition separation

7

Perché le matrici simmetriche positive definite (SPD) sono così importanti?

Conosco la definizione di matrice simmetrica positiva definita (SPD), ma voglio capire di più. Perché sono così importanti, intuitivamente? Ecco quello che so. Cos'altro? Per un dato dato, la matrice di varianza è SPD. La matrice di varianza è una metrica importante, vedi questo eccellente post per una spiegazione intuitiva. …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

2

Nelle reti neurali, perché usare metodi a gradiente piuttosto che altre metaeuristiche?

Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche? Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un …

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Quali metodi di ottimizzazione funzionano meglio per gli LSTM?

Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento? Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando …

20 machine-learning neural-networks optimization lstm

3

Quando gli algoritmi genetici sono una buona scelta per l'ottimizzazione?

Gli algoritmi genetici sono una forma di metodo di ottimizzazione. Spesso la discendenza stocastica a gradiente e i suoi derivati sono la scelta migliore per l'ottimizzazione delle funzioni, ma a volte vengono ancora utilizzati algoritmi genetici. Ad esempio, l'antenna del veicolo spaziale ST5 della NASA è stata creata con un …

20 machine-learning optimization gradient-descent genetic-algorithms

2

Qual è il significato del super script 2 subscript 2 nel contesto delle norme?

Sono nuovo di ottimizzazione. Continuo a vedere equazioni che hanno un apice 2 e un pedice 2 sul lato destro di una norma. Ad esempio, ecco l'equazione dei minimi quadrati min | | Ax-b | |22||Ax−b||22 ||Ax-b||^2_2 Penso di capire l'apice 2: significa quadrare il valore della norma. Ma qual …

20 regression optimization notation

1

Definizione matematica / algoritmica per overfitting

Esiste una definizione matematica o algoritmica di overfitting? Spesso le definizioni fornite sono il classico diagramma 2D di punti con una linea che attraversa ogni singolo punto e la curva di perdita di validazione sale improvvisamente. Ma esiste una definizione matematicamente rigorosa?

18 mathematical-statistics optimization overfitting

Domande taggate «optimization»