Quando si esegue la regressione, ad esempio, due iper parametri da scegliere sono spesso la capacità della funzione (ad es. Il più grande esponente di un polinomio) e la quantità di regolarizzazione. Ciò di cui sono confuso, è perché non scegliere semplicemente una funzione a bassa capacità e quindi ignorare …
L'algoritmo PCA può essere formulato in termini di matrice di correlazione (supponiamo che i dati XXX già stati normalizzati e stiamo considerando solo la proiezione sul primo PC). La funzione obiettivo può essere scritta come: maxw( Xw )T( Xw )stwTw = 1.maxw(Xw)T(Xw)stwTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. …
Se gli hessiani sono così buoni per l'ottimizzazione (vedi ad esempio il metodo di Newton ), perché fermarsi qui? Usiamo il terzo, il quarto, il quinto e il sesto derivato? Perchè no?
Come esempio, assumere la funzione obiettivo del modello XGBoost sulla 'th iterazione:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) dove è la funzione di perdita, è la t 'th uscita albero e \ Omega è la regolarizzazione. Uno dei (molti) passaggi chiave per il calcolo veloce è l'approssimazione:ℓℓ\ellftftf_ttttΩΩ\Omega L( t )≈ ∑i = 1nℓ ( yio, …
Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …
Sto lavorando sull'apprendimento automatico teorico - sull'apprendimento di trasferimento, per essere precisi - per il mio dottorato di ricerca. Per curiosità, perché dovrei seguire un corso sull'ottimizzazione convessa? Quali sono i vantaggi dell'ottimizzazione convessa che posso utilizzare nella mia ricerca sull'apprendimento automatico teorico?
Ho completato il corso di Machine Learning di Andrew Ng circa un anno fa e sto scrivendo la mia esplorazione di matematica al liceo sul funzionamento della regressione logistica e sulle tecniche per ottimizzare le prestazioni. Una di queste tecniche è, ovviamente, la regolarizzazione. Lo scopo della regolarizzazione è prevenire …
Non sono sicuro che questa domanda appartenga qui, ma è strettamente correlata ai metodi di gradiente nell'ottimizzazione, che qui sembra essere in argomento. Ad ogni modo, sentiti libero di migrare se ritieni che un'altra comunità abbia una migliore esperienza in materia. In breve, sto cercando un esempio dettagliato della differenziazione …
Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni? Faccio un esempio …
Data una funzione di costo convesso, usando SGD per l'ottimizzazione, avremo un gradiente (vettore) ad un certo punto durante il processo di ottimizzazione. La mia domanda è, dato il punto sul convesso, il gradiente punta solo nella direzione in cui la funzione aumenta / diminuisce più velocemente, oppure il gradiente …
Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Bengio, Goodfellow e Courville: Adam è generalmente considerato abbastanza robusto per la scelta dei parametri iper, sebbene il tasso di apprendimento a volte debba essere modificato rispetto al valore predefinito …
In realtà, volevo chiederti come posso definire la condizione terminale per la discesa del gradiente. Posso interromperlo in base al numero di iterazioni, ovvero considerando i valori dei parametri per, diciamo, 100 iterazioni? O dovrei aspettare in modo tale che i diversi valori dei due parametri "nuovo" e "vecchio" siano …
Nota: sto pubblicando una domanda di un mio ex studente incapace di pubblicare da solo per motivi tecnici. Dato un esempio iid da una distribuzione Weibull con pdf c'è un'utile rappresentazione variabile mancante e quindi un algoritmo EM (aspettativa-massimizzazione) associato che potrebbe essere usato per trovare l'MLE di , invece …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.