Statistiche e Big Data cross-validation

5

Come decidi quali sono le percentuali di treno, convalida e test?

Quando ho diviso i miei dati etichettati in training, validazione e set di test, ho sentito tutto dal 25/25/25 al 85/5/10. Sono sicuro che questo dipende da come userai il tuo modello e da quanto è incline a sovralimentare il tuo algoritmo di apprendimento. C'è un modo per decidere o …

10 machine-learning cross-validation

1

Perché Anova () e drop1 () hanno fornito risposte diverse per i GLMM?

Ho un GLMM del modulo: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), ottengo risultati diversi rispetto a quelli che utilizzo Anova(model, type="III")dal pacchetto auto o summary(model). Questi ultimi due danno le stesse risposte. Usando un mucchio di dati fabbricati, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Stabilità del modello nella validazione incrociata dei modelli di regressione

Dati i multipli di convalida incrociata di una regressione logistica e le risultanti stime multiple di ciascun coefficiente di regressione, come si dovrebbe misurare se un predittore (o un insieme di predittori) è / sono stabili e significativi in base ai coefficienti di regressione ? È diverso per la regressione …

10 regression model-selection cross-validation

4

C'è un modo per usare la validazione incrociata per fare la selezione di variabili / caratteristiche in R?

Ho un set di dati con circa 70 variabili che vorrei ridurre. Quello che sto cercando di fare è usare CV per trovare le variabili più utili nel modo seguente. 1) Seleziona in modo casuale diciamo 20 variabili. 2) Utilizzare stepwise/ LASSO/ lars/ etc per scegliere le variabili più importanti. …

10 r cross-validation feature-selection random-forest stepwise-regression

3

Buona letteratura sulla convalida incrociata

Qualcuno conosce un buon libro / pagina web per iniziare ad apprendere le tecniche di validazione incrociata?

10 references cross-validation

1

Croce convalida regressione lazo in R

La funzione R cv.glm (libreria: avvio) calcola l'errore di stima della convalida incrociata K stimato per i modelli lineari generalizzati e restituisce delta. Ha senso usare questa funzione per una regressione del lazo (libreria: glmnet) e, in tal caso, come può essere eseguita? La libreria glmnet usa una validazione incrociata …

10 r regression cross-validation lasso glmnet

2

Convalida incrociata nidificata: in cosa differisce dalla selezione del modello tramite CV di Kfold sul set di addestramento?

Vedo spesso persone che parlano della convalida incrociata 5x2 come un caso speciale di convalida incrociata nidificata . Suppongo che il primo numero (qui: 5) si riferisca al numero di pieghe nell'anello interno e il secondo numero (qui: 2) si riferisca al numero di pieghe nell'anello esterno? Quindi, in che …

10 machine-learning cross-validation hyperparameter

2

Implementazione della validazione incrociata nidificata

Sto cercando di capire se la mia comprensione della convalida incrociata nidificata è corretta, quindi ho scritto questo esempio di giocattolo per vedere se ho ragione: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = …

10 cross-validation python scikit-learn

4

Modello di storia degli eventi a tempo discreto (Sopravvivenza) in R

Sto cercando di adattare un modello a tempo discreto in R, ma non sono sicuro di come farlo. Ho letto che puoi organizzare la variabile dipendente in diverse righe, una per ogni osservazione temporale e utilizzare la glmfunzione con un collegamento logit o cloglog. In questo senso, ho tre colonne: …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

Convalida incrociata GAM per testare l'errore di previsione

Le mie domande riguardano i GAM nel pacchetto mgcv R. A causa delle dimensioni ridotte del campione, desidero determinare l'errore di previsione utilizzando la convalida incrociata senza esclusione di dati. È ragionevole? Esiste un pacchetto o un codice come posso farlo? La errorest()funzione nel pacchetto ipred non funziona. Un semplice …

10 r cross-validation gam mgcv

1

Calcolo degli intervalli di previsione quando si utilizza la convalida incrociata

Le stime di deviazione standard sono calcolate tramite: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) per la precisione delle previsioni campionata da 10 volte la convalida incrociata? Sono preoccupato che l'accuratezza della previsione calcolata tra ciascuna piega dipenda dalla sostanziale sovrapposizione tra le serie di allenamento …

10 confidence-interval cross-validation prediction prediction-interval

2

Come simulare i risultati multivariati in R?

Nella maggior parte dei casi, trattiamo solo una variabile risultato / risposta come . Tuttavia, in alcuni scenari, in particolare nei dati clinici, le variabili di risultato possono essere ad alta dimensione / multivariate. Come , dove contiene , e e questi risultati sono tutti correlati. Se rappresenta il trattamento …

10 r cross-validation

1

Come si generano le curve ROC per la validazione incrociata senza interruzioni?

Quando si esegue una validazione incrociata di 5 volte (ad esempio), è tipico calcolare una curva ROC separata per ciascuna delle 5 pieghe e spesso per una curva ROC media con std. dev. mostrato come spessore della curva. Tuttavia, per la validazione incrociata LOO, dove esiste un solo punto dati …

10 cross-validation roc

2

RMSE e MAE possono avere lo stesso valore?

Sto implementando la validazione incrociata e il calcolo delle metriche di errore come RMSE, , MAE, MSE, ecc.R2R2R^2 RMSE e MAE possono avere lo stesso valore?

9 cross-validation rms mae

1

Perché vengono divulgate informazioni sui dati di convalida se durante la regolazione degli iperparametri valuto le prestazioni del modello sui dati di convalida?

Nel Deep Learning di Poison di François Chollet si dice: Di conseguenza, l'ottimizzazione della configurazione del modello in base alle prestazioni sul set di convalida può comportare rapidamente un overfitting al set di convalida, anche se il modello non viene mai addestrato direttamente su di esso. Al centro di questo …

9 neural-networks cross-validation hyperparameter

Domande taggate «cross-validation»