Statistiche e Big Data optimization

2

Qual è la differenza tra stima della massima verosimiglianza e discesa del gradiente?

Quali sono i pro e i contro di entrambi i metodi?

16 maximum-likelihood predictive-models optimization gradient-descent

1

Perché il "lazo rilassato" è diverso dal lazo standard?

Se iniziamo con un set di dati , applichiamo Lasso ad esso e otteniamo una soluzione β L , possiamo applicare nuovamente Lasso al set di dati ( X S , Y ) , dove S è l'insieme diverso da zero indici di β L , per ottenere una soluzione, …

16 regression optimization lasso regularization shrinkage

1

La probabilità di log in GLM ha garantito la convergenza ai massimi globali?

Le mie domande sono: I modelli lineari generalizzati (GLM) sono garantiti per convergere ad un massimo globale? Se è così, perché? Inoltre, quali sono i vincoli sulla funzione di collegamento per assicurare la convessità? La mia comprensione dei GLM è che massimizzano una funzione di probabilità altamente non lineare. Immagino …

16 generalized-linear-model optimization convergence exponential-family

2

Come scegliere il giusto algoritmo di ottimizzazione?

Devo trovare il minimo di una funzione. Leggendo i documenti su http://docs.scipy.org/doc/scipy/reference/optimize.html Vedo che ci sono diversi algoritmi che fanno la stessa cosa, cioè trovano il minimo. Come faccio a sapere quale dovrei scegliere? alcuni degli algoritmi elencati Ridurre a icona una funzione utilizzando l'algoritmo simplex in discesa. Ridurre a …

16 optimization

2

Perché l'ottimizzazione delle aspettative è importante per i modelli di miscele?

Ci sono molte pubblicazioni che enfatizzano il metodo di massimizzazione delle aspettative su modelli di miscele (Miscela di gaussiana, modello nascosto di Markov, ecc.). Perché EM è importante? EM è solo un modo per fare l'ottimizzazione e non è ampiamente usato come metodo basato sul gradiente (gradiente decente o metodo …

15 machine-learning optimization expectation-maximization gaussian-mixture

1

In che modo la discesa gradiente stocastica può far risparmiare tempo rispetto alla discesa gradiente standard?

Discesa gradiente standard calcolerebbe il gradiente per l'intero set di dati di allenamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Per un numero predefinito di epoche, prima calcoliamo il vettore gradiente weights_grad della funzione di perdita per l'intero set di dati …

15 machine-learning optimization gradient-descent computational-statistics sgd

1

Chiarimento sull'implementazione della Discendenza della regola di Perceptron rispetto alla discesa del gradiente rispetto alla discesa del gradiente stocastico

Ho sperimentato un po 'con diverse implementazioni di Perceptron e voglio assicurarmi di capire correttamente le "iterazioni". La regola originale del percettrone di Rosenblatt A quanto ho capito, nel classico algoritmo perceptron di Rosenblatt, i pesi vengono aggiornati simultaneamente dopo ogni esempio di allenamento tramite Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target …

15 optimization gradient-descent perceptron

2

Stima ARIMA a mano

Sto cercando di capire come vengono stimati i parametri nella modellazione ARIMA / Box Jenkins (BJ). Sfortunatamente nessuno dei libri che ho incontrato descrive in dettaglio la procedura di stima come la procedura di stima Log-Likelihood. Ho trovato il sito web / materiale didattico molto utile. Di seguito è riportata …

15 time-series forecasting arima optimization box-jenkins

1

In che modo la CNN evita il problema del gradiente evanescente

Ho letto molto sulle reti neurali convolutive e mi chiedevo come evitare il problema del gradiente in via di estinzione. So che le reti di credenze profonde impilano autocodificatori a livello singolo o altre reti poco profonde pre-addestrate e posso quindi evitare questo problema, ma non so come evitarlo nelle …

15 machine-learning optimization deep-learning gradient-descent

1

Perché non riesco ad abbinare l'output glmer (family = binomial) con l'implementazione manuale dell'algoritmo Gauss-Newton?

Vorrei abbinare le uscite di lmer (davvero glmer) con un esempio binomiale di giocattoli. Ho letto le vignette e credo di capire cosa sta succedendo. Ma a quanto pare non lo faccio. Dopo essermi bloccato, ho corretto la "verità" in termini di effetti casuali e ho seguito solo la stima …

15 r mixed-model optimization lme4-nlme

1

Perché una sola ReLU non può imparare una ReLU?

Come follow-up della mia rete neurale non riesco nemmeno a imparare la distanza euclidea, ho semplificato ancora di più e ho cercato di addestrare una singola ReLU (con peso casuale) su una singola ReLU. Questa è la rete più semplice che ci sia, eppure la metà delle volte non riesce …

15 machine-learning neural-networks optimization keras

1

Perché è importante includere un termine di correzione della distorsione per l'ottimizzatore Adam per Deep Learning?

Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Begnio, Goodfellow e Courtville: Adam include correzioni di bias alle stime sia dei momenti del primo ordine (il termine momentum) sia dei momenti (non centrati) del secondo ordine per tenere …

15 machine-learning neural-networks optimization conv-neural-network adam

3

Differenza nell'uso del gradiente e del gradiente normalizzati

Nell'impostazione generale dell'algoritmo di discesa gradiente, abbiamo dove x n è il punto corrente, η è la dimensione del gradino e g r a d i e n t x n è il gradiente valutato in x n . Xn + 1= xn- η∗ gr a dIo E n tXnxn+1=xn−η∗gradientxnx_{n+1} …

15 algorithms optimization

1

Perché non usiamo tassi di apprendimento non costanti per gradienti decenti per cose diverse dalle reti neurali?

La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle …

14 machine-learning deep-learning optimization gradient-descent

1

Probabilità massima limitata con un rango di colonna inferiore a

Questa domanda riguarda la stima della massima verosimiglianza limitata (REML) in una particolare versione del modello lineare, vale a dire: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), dove X(α)X(α)X(\alpha) è una matrice ( n×pn×pn \times p ) parametrizzata da α∈Rkα∈Rk\alpha \in \mathbb R^k , così come Σ(α)Σ(α)\Sigma(\alpha) …

14 mixed-model maximum-likelihood linear-model optimization reml

Domande taggate «optimization»