Statistiche e Big Data cross-validation

1

Come costruire il modello finale e ottimizzare la soglia di probabilità dopo la convalida incrociata nidificata?

In primo luogo, mi scuso per aver pubblicato una domanda che è già stata discussa a lungo qui , qui , qui , qui , quie per il riscaldamento di un vecchio argomento. So che @DikranMarsupial ha scritto a lungo su questo argomento in post e articoli di giornale, ma …

17 machine-learning cross-validation model-selection glmnet hyperparameter

3

La convalida incrociata è sufficiente per evitare un eccesso di adattamento?

Se ho un dato ed eseguo una classificazione (diciamo foresta casuale su questi dati) con convalida incrociata (diciamo 5 volte), potrei concludere che non c'è adattamento eccessivo nel mio metodo?

17 cross-validation overfitting

1

Segnalazione della varianza della ripetuta convalida incrociata di k-fold

Ho usato ripetute convalide incrociate di k-fold e ho riportato la media (della metrica di valutazione, ad es. Sensibilità, specificità) calcolata come media media attraverso le pieghe di diverse serie di convalide incrociate. Tuttavia, non sono sicuro di come segnalare la varianza. Ho trovato qui molte domande relative alla ripetuta …

17 cross-validation

1

Caret: convalida incrociata ripetuta K vs convalida incrociata K ripetuta, ripetuta n-volte

Il pacchetto Caret è una brillante libreria R per la creazione di più modelli di machine learning e ha diverse funzioni per la costruzione e la valutazione dei modelli. Per l'ottimizzazione dei parametri e l'addestramento del modello, il pacchetto caret offre "ripetuto" come uno dei metodi. Come buona pratica, l'ottimizzazione …

16 cross-validation caret

1

La convalida incrociata ripetuta dovrebbe essere utilizzata per valutare i modelli predittivi?

Mi sono imbattuto in questo articolo del 2012 di Gitte Vanwinckelen e Hendrik Blockeel mettendo in discussione l'utilità della ripetuta convalida incrociata, che è diventata una tecnica popolare per ridurre la varianza della convalida incrociata. Gli autori hanno dimostrato che mentre la ripetuta convalida incrociata riduce la varianza delle previsioni …

16 cross-validation

3

Ricerca della griglia sulla convalida incrociata di k-fold

Ho un set di dati di 120 campioni in un'impostazione di convalida incrociata di 10 volte. Attualmente, seleziono i dati di allenamento del primo holdout e eseguo una convalida incrociata di 5 volte su di esso per selezionare i valori di gamma e C mediante la ricerca della griglia. Sto …

16 machine-learning classification cross-validation svm

7

Qual è la definizione di "migliore" utilizzata nel termine "migliore adattamento" e convalida incrociata?

Se si adatta una funzione non lineare a un insieme di punti (supponendo che vi sia una sola ordinata per ogni ascissa) il risultato può essere: una funzione molto complessa con piccoli residui una funzione molto semplice con grandi residui La validazione incrociata è comunemente usata per trovare il "miglior" …

16 model-selection cross-validation

2

Convalida incrociata PCA e k-fold nel pacchetto di inserimento in R

Ho appena rivisto una lezione del corso di Machine Learning su Coursera. Nella sezione in cui il professore discute di PCA per i dati di pre-elaborazione in applicazioni di apprendimento supervisionato, afferma che il PCA deve essere eseguito solo sui dati di addestramento e quindi la mappatura viene utilizzata per …

16 r pca cross-validation caret

4

Normalizzazione prima della convalida incrociata

La normalizzazione dei dati (per avere media zero e deviazione standard unitaria) prima di eseguire una convalida incrociata ripetuta k ha qualche risultato negativo come un overfitting? Nota: questo è per una situazione in cui #case> #features totali Sto trasformando alcuni dei miei dati utilizzando una trasformazione del registro, quindi …

16 cross-validation normalization

2

L'errore Out of Bag rende il CV non necessario nelle foreste casuali?

Sono abbastanza nuovo per le foreste casuali. In passato, ho sempre confrontato l'accuratezza di adattamento vs test rispetto a adattamento vs treno per rilevare eventuali eccessi. Ma ho appena letto qui che: "Nelle foreste casuali, non è necessaria la convalida incrociata o un set di test separato per ottenere una …

15 cross-validation random-forest overfitting

1

Qual è l'intuizione dietro i campioni scambiabili sotto l'ipotesi nulla?

I test di permutazione (chiamati anche test di randomizzazione, test di ri-randomizzazione o test esatto) sono molto utili e sono utili quando l'assunzione della distribuzione normale richiesta da per esempio t-testnon è soddisfatta e quando la trasformazione dei valori per classifica del test non parametrici come Mann-Whitney-U-testquesto porterebbero alla perdita …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Media (punteggi) vs Punteggio (concatenazione) in validazione incrociata

TLDR: Il mio set di dati è piuttosto piccolo (120) campioni. Durante la convalida incrociata di 10 volte, dovrei: Raccogliere gli output da ciascuna piega di prova, concatenarli in un vettore e quindi calcolare l'errore su questo vettore completo di previsioni (120 campioni)? O dovrei invece calcolare l'errore sugli output …

15 classification cross-validation small-sample

1

Quando / dove utilizzare l'analisi dei dati funzionali?

Sono molto nuovo nell'analisi dei dati funzionali (FDA). Sto leggendo: Ramsay, James O. e Silverman, Bernard W. (2006), Functional Data Analysis, 2nd ed., Springer, New York. Tuttavia, non sono ancora molto chiaro dove / quando utilizzare la FDA? Qualcuno potrebbe darmi un esempio soprattutto negli studi medici? Non so davvero …

15 statistical-significance cross-validation nonparametric

2

Qual è la procedura per la "validazione bootstrap" (aka "ricampionamento convalida incrociata")?

"Convalida bootstrap" / "ricampionamento convalida incrociata" è nuovo per me, ma è stato discusso dalla risposta a questa domanda . Capisco che coinvolge 2 tipi di dati: i dati reali e i dati simulati, in cui un dato insieme di dati simulati viene generato dai dati reali ricampionando-con-sostituzione fino a …

15 cross-validation bootstrap validation resampling

2

Come eseguire la validazione incrociata con un modello di rischio proporzionale Cox?

Supponiamo di aver costruito un modello di previsione per il verificarsi di una particolare malattia in un set di dati (il set di dati di creazione del modello) e ora voglio verificare il funzionamento del modello in un nuovo set di dati (il set di dati di convalida). Per un …

15 predictive-models cross-validation survival roc

Domande taggate «cross-validation»