Statistiche e Big Data cross-validation

2

È vero che i bayesiani non hanno bisogno di set di test?

Di recente ho visto questo discorso di Eric J. Ma e ho controllato il suo blog , in cui cita Radford Neal, che i modelli bayesiani non si adattano troppo (ma possono adattarsi troppo ) e quando li usano, non abbiamo bisogno di set di test per convalidarli (per me …

9 machine-learning bayesian cross-validation deep-learning

1

Quale modello di apprendimento profondo può classificare categorie che non si escludono a vicenda

Esempi: ho una frase nella descrizione del lavoro: "Ingegnere senior Java nel Regno Unito". Voglio usare un modello di apprendimento profondo per prevederlo in 2 categorie: English e IT jobs. Se uso il modello di classificazione tradizionale, posso solo prevedere 1 etichetta con la softmaxfunzione all'ultimo livello. Quindi, posso usare …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

In realtà va bene eseguire la selezione delle funzioni senza supervisione prima della convalida incrociata?

In The Elements of Statistical Learning , ho trovato la seguente dichiarazione: Esiste una qualifica: le fasi iniziali di screening senza supervisione possono essere eseguite prima che i campioni vengano esclusi. Ad esempio, potremmo selezionare i 1000 predittori con la varianza più elevata tra tutti i 50 campioni, prima di …

9 machine-learning cross-validation feature-selection

2

Dovremmo sempre fare CV?

La mia domanda: dovrei fare CV anche per un set di dati relativamente grande? Ho un set di dati relativamente grande e applicherò un algoritmo di apprendimento automatico al set di dati. Dal momento che il mio PC non è veloce, il CV (e la ricerca della griglia) richiede a …

9 machine-learning cross-validation

1

Classificatori algebrici, maggiori informazioni?

Ho letto i classificatori algebrici: un approccio generico alla convalida incrociata rapida, alla formazione online e alla formazione parallela e sono rimasto sorpreso dalle prestazioni degli algoritmi derivati. Tuttavia, sembra che oltre a Naive Bayes (e GBM) non ci siano molti algoritmi adattati al framework. Ci sono altri articoli che …

9 cross-validation references random-forest computational-statistics naive-bayes

1

Selezione del modello originale (?) Con CV piega a k

Quando utilizzo CV di k-fold per selezionare tra i modelli di regressione, di solito computo l'errore CV separatamente per ciascun modello, insieme al suo errore standard SE, e seleziono il modello più semplice entro 1 SE dal modello con l'errore CV più basso (il 1 regola di errore standard, vedere …

9 regression cross-validation model-selection

2

Back-testing o cross-validation quando il processo di costruzione del modello era interattivo

Ho alcuni modelli predittivi di cui vorrei eseguire il back-test delle prestazioni (ovvero, portare il mio set di dati, "riavvolgerlo" a un punto precedente nel tempo e vedere come il modello si sarebbe comportato in modo prospettico). Il problema è che alcuni dei miei modelli sono stati creati tramite un …

9 cross-validation modeling outliers splines overfitting

2

Stima degli errori out-of-bag per il boost?

In Random Forest, ogni albero viene cresciuto in parallelo su un unico esempio di boostrap dei dati. Poiché ci si aspetta che ogni campione di boostrap contenga circa il 63% di osservazioni uniche, questo lascia circa il 37% di osservazioni che possono essere utilizzate per testare l'albero. Ora, sembra che …

9 machine-learning cross-validation data-mining random-forest boosting

3

K-fold o hold-out cross validation per la regressione della cresta usando R

Sto lavorando alla convalida incrociata della previsione dei miei dati con 200 soggetti e 1000 variabili. Sono interessato alla regressione della cresta poiché il numero di variabili (che voglio usare) è maggiore del numero del campione. Quindi voglio usare gli stimatori di contrazione. Di seguito sono riportati i dati di …

9 r cross-validation prediction ridge-regression

2

Come trovare valori ottimali per i parametri di ottimizzazione nel potenziamento degli alberi?

Mi rendo conto che ci sono 3 parametri di ottimizzazione nel modello degli alberi esaltanti, ad es il numero di alberi (numero di iterazioni) parametro di restringimento numero di divisioni (dimensioni di ciascun albero costituente) La mia domanda è: per ciascuno dei parametri di ottimizzazione, come devo trovare il suo …

9 machine-learning cross-validation computational-statistics boosting gbm

1

R / caret: set di treni e test vs. convalida incrociata?

Questa potrebbe essere forse una domanda sciocca, ma quando si genera un modello con cursore e si usa qualcosa di simile LOOCVo (ancora di più al punto) LGOCV, qual è il vantaggio di dividere i dati in set di treni e test se questo è essenzialmente ciò che la fase …

9 r machine-learning cross-validation caret

1

Come confrontare gli eventi osservati con quelli previsti?

Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

Selezione del modello e prestazioni del modello nella regressione logistica

Ho una domanda sulla selezione del modello e sulle prestazioni del modello nella regressione logistica. Ho tre modelli basati su tre diverse ipotesi. I primi due modelli (chiamiamoli z e x) hanno solo una variabile esplicativa in ciascun modello, e il terzo (chiamiamolo w) è più complicato. Sto usando AIC …

9 logistic model-selection cross-validation

2

AUC nella regressione logistica ordinale

Sto usando 2 tipi di regressione logistica: uno è il tipo semplice, per la classificazione binaria, e l'altro è la regressione logistica ordinale. Per calcolare l'accuratezza del primo, ho usato la convalida incrociata, in cui ho calcolato l'AUC per ogni piega e poi calcolato l'AUC medio. Come posso farlo per …

9 logistic cross-validation roc auc ordered-logit

2

Convalida incrociata per modelli misti?

Io e il mio collega stiamo montando una serie di modelli di effetti misti lineari e non lineari in R. Ci viene chiesto di eseguire una convalida incrociata sui modelli adattati in modo da poter verificare che gli effetti osservati siano relativamente generalizzabili. Questo è normalmente un compito banale, ma …

9 mixed-model cross-validation

Domande taggate «cross-validation»