Secondo i riferimenti libro 1 , libro 2 e carta . È stato menzionato che esiste un'equivalenza tra la regressione regolarizzata (Ridge, LASSO e Elastic Net) e le loro formule di vincolo. Ho anche esaminato Cross Validated 1 e Cross Validated 2 , ma non riesco a vedere una risposta …
Nella scelta del parametro di regolarizzazione lambda in Ridge o Lasso, il metodo consigliato è provare diversi valori di lambda, misurare l'errore nel set di convalida e infine scegliere quel valore di lambda che restituisce l'errore più basso. Non è un problema per me se la funzione f (lambda) = …
Questo è un argomento difficile per me stesso per google poiché avere le parole ottimizzazione e stocastico in una ricerca per impostazione predefinita è quasi automaticamente una ricerca di ottimizzazione stocastica. Ma quello che voglio veramente sapere sono quali metodi esistono per l'ottimizzazione dei modelli di computer quando l'output del …
Sto cercando il metodo di binning ottimale (discretizzazione) di una variabile continua rispetto a una determinata variabile binaria di risposta (target) e con il numero massimo di intervalli come parametro. esempio: ho un insieme di osservazioni di persone con variabili "height" (numeral continue) e "has_back_pains" (binarie). Voglio discretizzare l'altezza in …
La mia parrucchiera Stacey ha sempre una faccia felice, ma è spesso stressata nel gestire il suo tempo. Oggi Stacey era in ritardo per il mio appuntamento ed era molto dispiaciuto. Mentre mi tagliavo i capelli mi chiedevo: quanto tempo dovevano essere i suoi appuntamenti standard? (se la preferenza del …
Sto cercando di implementare l'algoritmo Nelder-Mead per ottimizzare una funzione. La pagina di Wikipedia su Nelder-Mead è sorprendentemente chiara sull'intero algoritmo, ad eccezione del suo criterio di arresto. Lì dice tristemente: Verificare la convergenza [chiarimento necessario] . Ho provato e testato un paio di criteri me stesso: Fermati se dove …
Il mgcvpacchetto per Rha due funzioni per adattare le interazioni del prodotto tensore: te()e ti(). Comprendo la divisione di base del lavoro tra i due (adattamento di un'interazione non lineare rispetto alla scomposizione di questa interazione in effetti principali e un'interazione). Quello che non capisco è perché te(x1, x2)e ti(x1) …
Mi sono imbattuto in queste diapositive (diapositiva n. 16 e n. 17) in uno dei corsi online. L'istruttore stava cercando di spiegare come la massima stima posteriore (MAP) sia effettivamente la soluzione L(θ)=I[θ≠θ∗]L(θ)=io[θ≠θ*]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , dove θ∗θ*\theta^{*} è il vero parametro. Qualcuno può spiegare come segue? Modifica: …
La mia comprensione della regressione di LASSO è che i coefficienti di regressione sono selezionati per risolvere il problema di minimizzazione: minβ∥ y- Xβ∥22 s . t . ∥ β∥1≤ tminβ‖y-Xβ‖22 S.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t In pratica questo viene fatto usando un moltiplicatore di …
Se ho una matrice di progettazione , dove è il numero di osservazioni della dimensione , qual è la complessità della risoluzione per con LASSO, wrt e ? Penso che la risposta dovrebbe fare riferimento a come una iterazione LASSO si ridimensiona con questi parametri, piuttosto che a come il …
Sto seguendo il tutorial mnist di Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Il tutorial usa tf.train.Optimizer.minimize(specificamente tf.train.GradientDescentOptimizer). Non vedo argomenti passati da nessuna parte per definire i gradienti. Il flusso del tensore utilizza la differenziazione numerica per impostazione predefinita? C'è un modo per passare in pendenze come puoi con scipy.optimize.minimize?
Il sistema di classificazione Elo utilizza un algoritmo di minimizzazione della discesa gradiente della funzione di perdita tra entropia tra la probabilità attesa e quella osservata di un risultato nei confronti accoppiati. Possiamo scrivere le funzioni di perdita generali come E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) dove la somma viene eseguita …
Fondamentalmente voglio convertire le misure di somiglianza in pesi che sono usati come predittori. Le somiglianze saranno su [0,1] e limiterò anche i pesi su [0,1]. Vorrei una funzione parametrica che esegue questa mappatura che probabilmente ottimizzerò usando la discesa gradiente. I requisiti sono 0 mappe su 0, 1 mappe …
Sto cercando di adattare un modello a tempo discreto in R, ma non sono sicuro di come farlo. Ho letto che puoi organizzare la variabile dipendente in diverse righe, una per ogni osservazione temporale e utilizzare la glmfunzione con un collegamento logit o cloglog. In questo senso, ho tre colonne: …
Sto cercando di comprendere l'ottimizzazione della discesa gradiente negli algoritmi ML (machine learning). Capisco che esiste una funzione di costo, in cui l'obiettivo è ridurre al minimo l'errore . In uno scenario in cui i pesi vengono ottimizzati per fornire l'errore minimo e vengono utilizzate derivate parziali, cambia sia che …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.