Statistiche e Big Data cross-validation

2

Convalida incrociata e regressione logistica ordinale

Sto cercando di comprendere la convalida incrociata per la regressione logistica ordinale. Lo scopo del gioco è convalidare il modello utilizzato in un'analisi ... Per prima cosa costruisco un set di dati giocattolo: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs …

12 regression cross-validation ordered-logit rms

2

Keras: perché la perdita diminuisce mentre aumenta val_loss?

Ho impostato una ricerca in griglia per un gruppo di parametri. Sto cercando di trovare i parametri migliori per una rete neurale di Keras che fa una classificazione binaria. L'output è 1 o 0. Esistono circa 200 funzioni. Quando ho fatto una ricerca sulla griglia, ho avuto un sacco di …

12 machine-learning cross-validation deep-learning tensorflow theano

1

Come scegliere un kernel per il kernel PCA?

Quali sono i modi per scegliere quale kernel comporterebbe una buona separazione dei dati nell'output finale dei dati dal kernel PCA (analisi dei componenti principali) e quali sono i modi per ottimizzare i parametri del kernel? I termini di Layman, se possibile, sarebbero molto apprezzati e anche i collegamenti a …

12 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

3

Suddivisione dei dati delle serie temporali in set di treni / test / convalida

Qual è il modo migliore per dividere i dati delle serie temporali in set di treni / test / validazione, dove il set di validazione verrebbe utilizzato per l'ottimizzazione dell'iperparametro? Abbiamo 3 anni di dati sulle vendite giornaliere e il nostro piano è di utilizzare il 2015-2016 come dati di …

12 time-series cross-validation validation

2

Definizione esatta della misura di Devianza nel pacchetto glmnet, con crossvalidation?

Per la mia ricerca attuale sto usando il metodo Lazo tramite il pacchetto glmnet in R su una variabile binomiale dipendente. In glmnet la lambda ottimale si trova attraverso la validazione incrociata e i modelli risultanti possono essere confrontati con varie misure, ad esempio errori di classificazione errata o devianza. …

12 cross-validation lasso glmnet deviance lars

2

La percentuale di errore è una funzione convessa del parametro di regolarizzazione lambda?

Nella scelta del parametro di regolarizzazione lambda in Ridge o Lasso, il metodo consigliato è provare diversi valori di lambda, misurare l'errore nel set di convalida e infine scegliere quel valore di lambda che restituisce l'errore più basso. Non è un problema per me se la funzione f (lambda) = …

11 cross-validation error regularization validation optimization

2

La suddivisione dei dati in set di test e training è puramente una cosa "statistica"?

Sono uno studente di fisica che studia apprendimento automatico / scienza dei dati, quindi non intendo per questa domanda iniziare alcun conflitto :) Tuttavia, gran parte di qualsiasi programma di laurea in fisica è fare laboratori / esperimenti, il che significa molti dati elaborazione e analisi statistica. Tuttavia, noto una …

11 regression machine-learning cross-validation dataset experiment-design

4

Qual è il modo più appropriato per creare un set di controllo: rimuovere alcuni soggetti o rimuovere alcune osservazioni da ciascun soggetto?

Ho un set di dati con 26 funzionalità e 31000 righe. È il set di dati di 38 soggetti. È per un sistema biometrico. Quindi voglio essere in grado di identificare i soggetti. Per avere un set di test, so che devo rimuovere alcuni valori. Allora, cosa è meglio fare …

11 machine-learning cross-validation out-of-sample

1

Perché una vasta scelta di K riduce il mio punteggio di convalida incrociata?

Giocando con il Boston Housing Dataset e RandomForestRegressor(con parametri di default) in scikit-learn, ho notato qualcosa di strano: il punteggio medio di validazione incrociata è diminuito quando ho aumentato il numero di pieghe oltre 10. La mia strategia di validazione incrociata era la seguente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Convalida incrociata dopo LASSO in dati di sondaggi complessi

Sto cercando di fare la selezione del modello su alcuni predittori candidati usando LASSO con un risultato continuo. L'obiettivo è selezionare il modello ottimale con le migliori prestazioni di predizione, che di solito può essere eseguito mediante convalida incrociata K-fold dopo aver ottenuto un percorso di soluzione dei parametri di …

11 cross-validation survey lasso glmnet

3

Intervallo di confidenza per l'accuratezza della classificazione convalidata in modo incrociato

Sto lavorando a un problema di classificazione che calcola una metrica di somiglianza tra due immagini radiografiche di input. Se le immagini sono della stessa persona (etichetta di "destra"), verrà calcolata una metrica più alta; l'immissione di immagini di due persone diverse (etichetta "errata") comporterà una metrica inferiore. Ho usato …

11 classification confidence-interval cross-validation matlab

1

Precisione media e richiamo quando si utilizza la convalida incrociata

Ho eseguito la classificazione utilizzando più classificatori per dati etichettati in 2 classi e ho utilizzato la convalida incrociata 5 volte. Per ogni piega ho calcolato tp, tn, fp e fn. Quindi ho calcolato l'accuratezza, la precisione, il richiamo e il punteggio F per ciascun test. La mia domanda è: …

11 classification cross-validation precision-recall

1

Come si può rilevare se un processo gaussiano è troppo adatto?

Sto addestrando un processo gaussiano con un kernel ARD con molti parametri massimizzando la verosimiglianza marginale dei dati, anziché la convalida incrociata. Ho il sospetto che sia troppo adatto. Come posso provare questo sospetto in un contesto bayesiano?

11 machine-learning cross-validation gaussian-process

1

Interpretazione bayesiana, MDL o ML della convalida incrociata?

Esiste un'interpretazione bayesiana, ML o MDL nota della convalida incrociata? Posso interpretare la convalida incrociata come eseguire l'aggiornamento corretto su un precedente appositamente predisposto?

11 bayesian cross-validation maximum-likelihood

1

R / mgcv: Perché i prodotti tensor te () e ti () producono superfici diverse?

Il mgcvpacchetto per Rha due funzioni per adattare le interazioni del prodotto tensore: te()e ti(). Comprendo la divisione di base del lavoro tra i due (adattamento di un'interazione non lineare rispetto alla scomposizione di questa interazione in effetti principali e un'interazione). Quello che non capisco è perché te(x1, x2)e ti(x1) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

Domande taggate «cross-validation»