Statistiche e Big Data optimization

4

Perché usare la regolarizzazione nella regressione polinomiale invece di abbassare il grado?

Quando si esegue la regressione, ad esempio, due iper parametri da scegliere sono spesso la capacità della funzione (ad es. Il più grande esponente di un polinomio) e la quantità di regolarizzazione. Ciò di cui sono confuso, è perché non scegliere semplicemente una funzione a bassa capacità e quindi ignorare …

32 regression machine-learning optimization regularization polynomial

1

Funzione obiettivo PCA: qual è la connessione tra massimizzare la varianza e minimizzare l'errore?

L'algoritmo PCA può essere formulato in termini di matrice di correlazione (supponiamo che i dati XXX già stati normalizzati e stiamo considerando solo la proiezione sul primo PC). La funzione obiettivo può essere scritta come: maxw( Xw )T( Xw )stwTw = 1.maxw(Xw)T(Xw)stwTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. …

32 pca optimization

6

Perché non usare la terza derivata per l'ottimizzazione numerica?

Se gli hessiani sono così buoni per l'ottimizzazione (vedi ad esempio il metodo di Newton ), perché fermarsi qui? Usiamo il terzo, il quarto, il quinto e il sesto derivato? Perchè no?

29 optimization gradient-descent hessian

1

Approssimazione della funzione di perdita XGBoost con Taylor Expansion

Come esempio, assumere la funzione obiettivo del modello XGBoost sulla 'th iterazione:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) dove è la funzione di perdita, è la t 'th uscita albero e \ Omega è la regolarizzazione. Uno dei (molti) passaggi chiave per il calcolo veloce è l'approssimazione:ℓℓ\ellftftf_ttttΩΩ\Omega L( t )≈ ∑i = 1nℓ ( yio, …

28 optimization loss-functions boosting xgboost taylor-series

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1

Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …

27 machine-learning classification optimization loss-functions

6

Perché studiare l'ottimizzazione convessa per l'apprendimento automatico teorico?

Sto lavorando sull'apprendimento automatico teorico - sull'apprendimento di trasferimento, per essere precisi - per il mio dottorato di ricerca. Per curiosità, perché dovrei seguire un corso sull'ottimizzazione convessa? Quali sono i vantaggi dell'ottimizzazione convessa che posso utilizzare nella mia ricerca sull'apprendimento automatico teorico?

27 machine-learning optimization convex transfer-learning

6

Perché pesi più piccoli si traducono in modelli più semplici nella regolarizzazione?

Ho completato il corso di Machine Learning di Andrew Ng circa un anno fa e sto scrivendo la mia esplorazione di matematica al liceo sul funzionamento della regressione logistica e sulle tecniche per ottimizzare le prestazioni. Una di queste tecniche è, ovviamente, la regolarizzazione. Lo scopo della regolarizzazione è prevenire …

27 regression machine-learning optimization regularization overfitting

1

Esempio dettagliato di differenziazione automatica in modalità inversa

Non sono sicuro che questa domanda appartenga qui, ma è strettamente correlata ai metodi di gradiente nell'ottimizzazione, che qui sembra essere in argomento. Ad ogni modo, sentiti libero di migrare se ritieni che un'altra comunità abbia una migliore esperienza in materia. In breve, sto cercando un esempio dettagliato della differenziazione …

27 optimization derivative tensorflow automatic-differentiation

1

Quali sono le notazioni classiche in statistica, algebra lineare e machine learning? E quali sono le connessioni tra queste notazioni?

Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni? Faccio un esempio …

26 machine-learning probability self-study optimization

6

Per problemi convessi, il gradiente in Discesa gradiente stocastica (SGD) indica sempre il valore estremo globale?

Data una funzione di costo convesso, usando SGD per l'ottimizzazione, avremo un gradiente (vettore) ad un certo punto durante il processo di ottimizzazione. La mia domanda è, dato il punto sul convesso, il gradiente punta solo nella direzione in cui la funzione aumenta / diminuisce più velocemente, oppure il gradiente …

25 neural-networks optimization gradient-descent sgd convex

3

Qual è la ragione per cui Adam Optimizer è considerato robusto per il valore dei suoi iper parametri?

Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Bengio, Goodfellow e Courville: Adam è generalmente considerato abbastanza robusto per la scelta dei parametri iper, sebbene il tasso di apprendimento a volte debba essere modificato rispetto al valore predefinito …

24 neural-networks deep-learning optimization hyperparameter adam

1

Come definire la condizione di terminazione per la discesa gradiente?

In realtà, volevo chiederti come posso definire la condizione terminale per la discesa del gradiente. Posso interromperlo in base al numero di iterazioni, ovvero considerando i valori dei parametri per, diciamo, 100 iterazioni? O dovrei aspettare in modo tale che i diversi valori dei due parametri "nuovo" e "vecchio" siano …

24 algorithms optimization gradient-descent

4

Stima della massima verosimiglianza EM per la distribuzione di Weibull

Nota: sto pubblicando una domanda di un mio ex studente incapace di pubblicare da solo per motivi tecnici. Dato un esempio iid da una distribuzione Weibull con pdf c'è un'utile rappresentazione variabile mancante e quindi un algoritmo EM (aspettativa-massimizzazione) associato che potrebbe essere usato per trovare l'MLE di , invece …

24 optimization missing-data expectation-maximization weibull gumbel

Domande taggate «optimization»