Statistiche e Big Data cross-validation

5

Puoi esagerare con l'addestramento degli algoritmi di machine learning usando CV / Bootstrap?

Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …

34 machine-learning cross-validation bootstrap optimization resampling

3

In che modo la convalida incrociata può superare il problema di overfitting?

Perché una procedura di convalida incrociata risolve il problema del sovradimensionamento di un modello?

34 regression model-selection cross-validation

1

Uso improprio di convalida incrociata (segnalazione delle prestazioni per il miglior valore di iperparametro)

Di recente mi sono imbattuto in un documento che propone di utilizzare un classificatore k-NN su un set di dati specifico. Gli autori hanno utilizzato tutti i campioni di dati disponibili per eseguire la convalida incrociata k-fold per diversi valori k e riportare i risultati della convalida incrociata della migliore …

31 cross-validation references model-selection model-evaluation

2

Perché usare la validazione incrociata stratificata? Perché questo non danneggia i benefici correlati alla varianza?

Mi è stato detto che è utile utilizzare la validazione incrociata stratificata, specialmente quando le classi di risposta sono sbilanciate. Se uno scopo della convalida incrociata è quello di aiutare a spiegare la casualità del nostro campione di dati di allenamento originale, fare sicuramente ogni piega con la stessa distribuzione …

29 cross-validation resampling stratification

1

Metriche di errore per modelli Poisson con convalida incrociata

Sto convalidando in modo incrociato un modello che sta cercando di prevedere un conteggio. Se questo fosse un problema di classificazione binaria, calcolerei l'AUC out-fold e se questo fosse un problema di regressione calcolerei RMSE o MAE out-of-fold. Per un modello di Poisson, quali parametri di errore posso usare per …

29 cross-validation poisson-distribution count-data deviance scoring-rules

3

K-fold vs. convalida incrociata Monte Carlo

Sto cercando di apprendere vari metodi di convalida incrociata, principalmente con l'intenzione di applicare a tecniche di analisi multivariate supervisionate. Due che ho incontrato sono le tecniche di convalida incrociata K-fold e Monte Carlo. Ho letto che K-fold è una variante di Monte Carlo ma non sono sicuro di aver …

29 cross-validation monte-carlo

3

Convalida incrociata tra cui formazione, convalida e test. Perché abbiamo bisogno di tre sottoinsiemi?

Ho una domanda relativa al processo di convalida incrociata. Sono nel mezzo di un corso di Machine Learning on the Cursera. Uno degli argomenti riguarda la convalida incrociata. L'ho trovato leggermente difficile da seguire. So perché abbiamo bisogno del CV perché vogliamo che i nostri modelli funzionino bene su dati …

29 machine-learning cross-validation

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

La convalida incrociata è un sostituto adeguato del set di convalida?

Nella classificazione del testo, ho un set di addestramento con circa 800 campioni e un set di test con circa 150 campioni. Il set di test non è mai stato utilizzato e in attesa di essere utilizzato fino alla fine. Sto usando l'intero set di addestramento di 800 campioni, con …

27 machine-learning classification cross-validation text-mining

4

Perché esiste un'asimmetria tra la fase di addestramento e la fase di valutazione?

È noto, soprattutto nell'elaborazione del linguaggio naturale, che l'apprendimento automatico dovrebbe procedere in due fasi, una fase di addestramento e una fase di valutazione, e dovrebbero utilizzare dati diversi. Perchè è questo? Intuitivamente, questo processo aiuta a evitare un eccesso di adattamento dei dati, ma non riesco a vedere una …

27 machine-learning cross-validation

2

Stime di varianza nella validazione incrociata di k-fold

La convalida incrociata K-fold può essere utilizzata per stimare la capacità di generalizzazione di un determinato classificatore. Posso (o dovrei) anche calcolare una varianza aggregata da tutte le esecuzioni di validazione al fine di ottenere una stima migliore della sua varianza? Se no, perché? Ho trovato documenti che utilizzano la …

27 machine-learning cross-validation

1

Come si può dimostrare empiricamente in R a quali metodi di convalida incrociata sono equivalenti AIC e BIC?

In una domanda altrove su questo sito, diverse risposte hanno indicato che l'AIC equivale alla validazione incrociata con esclusione (LOO) e che il BIC è equivalente alla convalida incrociata con K. C'è un modo per dimostrarlo empiricamente in R in modo tale che le tecniche coinvolte in LOO e K-fold …

26 r aic cross-validation bic

4

Convalida incrociata interna vs esterna e selezione del modello

La mia comprensione è che con la validazione incrociata e la selezione del modello cerchiamo di affrontare due cose: P1 . Stimare la perdita attesa sulla popolazione durante l'allenamento con il nostro campione P2 . Misura e segnala la nostra incertezza di questa stima (varianza, intervalli di confidenza, distorsione, ecc.) …

26 estimation cross-validation references

4

Come si utilizza il set di dati "test" dopo la convalida incrociata?

In alcune lezioni ed esercitazioni che ho visto, suggeriscono di dividere i dati in tre parti: formazione, convalida e test. Ma non è chiaro come utilizzare il set di dati di test, né come questo approccio sia migliore della convalida incrociata sull'intero set di dati. Supponiamo di aver salvato il …

25 machine-learning cross-validation validation

Domande taggate «cross-validation»