Statistiche e Big Data cross-validation

1

Domanda sulla sottrazione media sul treno / valido / set di test

Sto eseguendo la preelaborazione dei dati e dopo costruirò un convoglio sui miei dati. La mia domanda è: supponiamo di avere un set di dati totale con 100 immagini, stavo calcolando la media per ciascuna delle 100 immagini e quindi sottratto da ciascuna delle immagini, quindi diviso in treno e …

11 machine-learning cross-validation data-preprocessing

1

È "giusto" mettere un seme in una regressione casuale della foresta per ottenere la massima precisione?

Ho una regressione casuale della foresta creata usando skl e noto che produco risultati diversi in base all'impostazione del seme casuale su valori diversi. Se uso LOOCV per stabilire quale seme funziona meglio, è un metodo valido?

10 cross-validation random-forest

1

Quando non utilizzare la convalida incrociata?

Mentre leggo il sito, la maggior parte delle risposte suggerisce che la validazione incrociata dovrebbe essere fatta negli algoritmi di machine learning. Tuttavia, mentre stavo leggendo il libro "Capire l'apprendimento automatico", ho visto che esiste un esercizio che a volte è meglio non usare la convalida incrociata. Sono veramente confuso. …

10 machine-learning self-study cross-validation

1

Regressione della foresta casuale per la previsione di serie storiche

Sto tentando di utilizzare la regressione RF per fare previsioni sulle prestazioni di una cartiera. Ho dati minuto per minuto per gli input (velocità e quantità di pasta di legno in entrata ecc.), Nonché per le prestazioni della macchina (carta prodotta, potenza assorbita dalla macchina) e sto cercando di fare …

10 time-series forecasting cross-validation random-forest autoregressive

1

Come eseguire la convalida incrociata con cv.glmnet (regressione LASSO in R)?

Mi chiedo come affrontare l'addestramento corretto e testare un modello LASSO usando glmnet in R? In particolare, mi chiedo come farlo se la mancanza di un set di dati di test esterno richiede l'uso della convalida incrociata (o altro approccio simile) per testare il mio modello LASSO. Vorrei analizzare il …

10 r cross-validation glmnet lasso

3

Perché la stima CV dell'errore di test sottostima l'errore di test effettivo?

Sono consapevole del fatto che la stima della convalida incrociata k-fold dell'errore del test di solito sottovaluta l'errore effettivo del test. Sono confuso perché questo è il caso. Capisco perché l'errore di addestramento è generalmente inferiore all'errore di test - perché stai allenando il modello sugli stessi dati su cui …

10 cross-validation bias

1

Prevenire Pareto ha smesso di campionare l'importanza (PSIS-LOO)

Di recente ho iniziato a utilizzare Pareto per semplificare l'importanza del campionamento con convalida incrociata (PSIS-LOO), descritto in questi documenti: Vehtari, A., & Gelman, A. (2015). Pareto ha livellato il campionamento di importanza. prestampa arXiv ( collegamento ). Vehtari, A., Gelman, A., e Gabry, J. (2016). Pratica valutazione del modello …

10 machine-learning cross-validation mcmc pareto-distribution importance-sampling

1

Quali metodi esistono per ottimizzare gli iperparametri del kernel grafico SVM?

Ho alcuni dati che esistono su un grafico . I vertici appartengono a una delle due classi e sono interessato a formare un SVM per distinguere tra le due classi. Un kernel appropriato per questo è il kernel di diffusione , dove è il Laplaciano di e è un parametro …

10 svm cross-validation kernel-trick graph-theory

1

La modellazione con foreste casuali richiede una convalida incrociata?

Per quanto ho visto, le opinioni tendono a differire su questo. Le migliori pratiche detterebbero certamente l'uso della convalida incrociata (soprattutto se si confrontano RF con altri algoritmi sullo stesso set di dati). D'altra parte, la fonte originale afferma che il fatto che l'errore OOB viene calcolato durante l'addestramento del …

10 cross-validation random-forest overfitting out-of-sample

2

Come scegliere la formazione, la convalida incrociata e le dimensioni dei set di test per dati di piccole dimensioni di campioni?

Supponiamo che io abbia una piccola dimensione del campione, ad esempio N = 100, e due classi. Come dovrei scegliere la formazione, la validazione incrociata e le dimensioni dei set di test per l'apprendimento automatico? Vorrei scegliere intuitivamente La formazione imposta la dimensione come 50 Convalida incrociata impostare la dimensione …

10 machine-learning sampling svm cross-validation sample-size

1

La convalida del hold-out è una migliore approssimazione di "acquisizione di nuovi dati" rispetto al CV di k-fold?

Ho ripensato una risposta che ho dato a una domanda un paio di settimane fa La convalida incrociata hold-out produce un singolo set di test che può essere utilizzato ripetutamente per la dimostrazione. Sembriamo tutti d'accordo sul fatto che questo è in molti modi una caratteristica negativa, dal momento che …

10 cross-validation

2

Superiorità di LASSO sulla selezione in avanti / eliminazione all'indietro in termini di errore di previsione della convalida incrociata del modello

Ho ottenuto tre modelli ridotti da un modello completo originale usando selezione in avanti eliminazione all'indietro Tecnica di penalizzazione L1 (LASSO) Per i modelli ottenuti utilizzando la selezione in avanti / eliminazione all'indietro, ho ottenuto la stima convalidata incrociata dell'errore di predizione utilizzando CVlmnel pacchetto DAAGdisponibile in R. Per il …

10 cross-validation model-selection lasso stepwise-regression

3

La selezione delle funzioni deve essere eseguita solo sui dati di allenamento (o su tutti i dati)?

La selezione delle funzioni deve essere eseguita solo sui dati di allenamento (o su tutti i dati)? Ho esaminato alcune discussioni e articoli come Guyon (2003) e Singhi e Liu (2006) , ma non sono ancora sicuro della risposta giusta. La configurazione del mio esperimento è la seguente: Set di …

10 dataset cross-validation experiment-design feature-selection

1

Confronto tra le distribuzioni delle prestazioni di generalizzazione

Supponi di avere due metodi di apprendimento per un problema di classificazione , e , e di stimare le loro prestazioni di generalizzazione con qualcosa come ripetute convalide incrociate o bootstrap. Da questo processo ottengo una distribuzione dei punteggi e per ciascun metodo attraverso queste ripetizioni (ad esempio la distribuzione …

10 cross-validation model-selection

1

Come posso incorporare un valore anomalo innovativo all'osservazione 48 nel mio modello ARIMA?

Sto lavorando su un set di dati. Dopo aver usato alcune tecniche di identificazione del modello, sono uscito con un modello ARIMA (0,2,1). Ho usato la detectIOfunzione nel pacchetto TSAin R per rilevare un valore anomalo innovativo (IO) alla 48a osservazione del mio set di dati originale. Come posso incorporare …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

Domande taggate «cross-validation»