Se iniziamo con un set di dati , applichiamo Lasso ad esso e otteniamo una soluzione β L , possiamo applicare nuovamente Lasso al set di dati ( X S , Y ) , dove S è l'insieme diverso da zero indici di β L , per ottenere una soluzione, …
Le mie domande sono: I modelli lineari generalizzati (GLM) sono garantiti per convergere ad un massimo globale? Se è così, perché? Inoltre, quali sono i vincoli sulla funzione di collegamento per assicurare la convessità? La mia comprensione dei GLM è che massimizzano una funzione di probabilità altamente non lineare. Immagino …
Devo trovare il minimo di una funzione. Leggendo i documenti su http://docs.scipy.org/doc/scipy/reference/optimize.html Vedo che ci sono diversi algoritmi che fanno la stessa cosa, cioè trovano il minimo. Come faccio a sapere quale dovrei scegliere? alcuni degli algoritmi elencati Ridurre a icona una funzione utilizzando l'algoritmo simplex in discesa. Ridurre a …
Ci sono molte pubblicazioni che enfatizzano il metodo di massimizzazione delle aspettative su modelli di miscele (Miscela di gaussiana, modello nascosto di Markov, ecc.). Perché EM è importante? EM è solo un modo per fare l'ottimizzazione e non è ampiamente usato come metodo basato sul gradiente (gradiente decente o metodo …
Discesa gradiente standard calcolerebbe il gradiente per l'intero set di dati di allenamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Per un numero predefinito di epoche, prima calcoliamo il vettore gradiente weights_grad della funzione di perdita per l'intero set di dati …
Ho sperimentato un po 'con diverse implementazioni di Perceptron e voglio assicurarmi di capire correttamente le "iterazioni". La regola originale del percettrone di Rosenblatt A quanto ho capito, nel classico algoritmo perceptron di Rosenblatt, i pesi vengono aggiornati simultaneamente dopo ogni esempio di allenamento tramite Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target …
Sto cercando di capire come vengono stimati i parametri nella modellazione ARIMA / Box Jenkins (BJ). Sfortunatamente nessuno dei libri che ho incontrato descrive in dettaglio la procedura di stima come la procedura di stima Log-Likelihood. Ho trovato il sito web / materiale didattico molto utile. Di seguito è riportata …
Ho letto molto sulle reti neurali convolutive e mi chiedevo come evitare il problema del gradiente in via di estinzione. So che le reti di credenze profonde impilano autocodificatori a livello singolo o altre reti poco profonde pre-addestrate e posso quindi evitare questo problema, ma non so come evitarlo nelle …
Vorrei abbinare le uscite di lmer (davvero glmer) con un esempio binomiale di giocattoli. Ho letto le vignette e credo di capire cosa sta succedendo. Ma a quanto pare non lo faccio. Dopo essermi bloccato, ho corretto la "verità" in termini di effetti casuali e ho seguito solo la stima …
Come follow-up della mia rete neurale non riesco nemmeno a imparare la distanza euclidea, ho semplificato ancora di più e ho cercato di addestrare una singola ReLU (con peso casuale) su una singola ReLU. Questa è la rete più semplice che ci sia, eppure la metà delle volte non riesce …
Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Begnio, Goodfellow e Courtville: Adam include correzioni di bias alle stime sia dei momenti del primo ordine (il termine momentum) sia dei momenti (non centrati) del secondo ordine per tenere …
Nell'impostazione generale dell'algoritmo di discesa gradiente, abbiamo dove x n è il punto corrente, η è la dimensione del gradino e g r a d i e n t x n è il gradiente valutato in x n . Xn + 1= xn- η∗ gr a dIo E n tXnxn+1=xn−η∗gradientxnx_{n+1} …
La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle …
Questa domanda riguarda la stima della massima verosimiglianza limitata (REML) in una particolare versione del modello lineare, vale a dire: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), dove X(α)X(α)X(\alpha) è una matrice ( n×pn×pn \times p ) parametrizzata da α∈Rkα∈Rk\alpha \in \mathbb R^k , così come Σ(α)Σ(α)\Sigma(\alpha) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.