Domande taggate «resampling»

Il ricampionamento sta prendendo un campione da un campione. Gli usi comuni sono jackknifing (prendendo un sottocampione, ad esempio tutti i valori tranne 1) e bootstrap (campionamento con sostituzione). Queste tecniche possono fornire una solida stima di una distribuzione campionaria quando sarebbe difficile o impossibile ricavare analiticamente.

2
Metodi di ricampionamento / simulazione: monte carlo, bootstrap, jackknifing, cross-validation, test di randomizzazione e test di permutazione
Sto cercando di comprendere la differenza tra i diversi metodi di ricampionamento (simulazione Monte Carlo, bootstrap parametrico, bootstrap non parametrico, jackknifing, cross-validation, test di randomizzazione e test di permutazione) e la loro implementazione nel mio contesto usando R. Supponiamo che io abbia la seguente situazione: voglio eseguire ANOVA con una …

5
Puoi esagerare con l'addestramento degli algoritmi di machine learning usando CV / Bootstrap?
Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …


2
Perché usare la validazione incrociata stratificata? Perché questo non danneggia i benefici correlati alla varianza?
Mi è stato detto che è utile utilizzare la validazione incrociata stratificata, specialmente quando le classi di risposta sono sbilanciate. Se uno scopo della convalida incrociata è quello di aiutare a spiegare la casualità del nostro campione di dati di allenamento originale, fare sicuramente ogni piega con la stessa distribuzione …


2
Metodi di ricampionamento del cursore
Sto usando la libreria caretin R per testare varie procedure di modellazione. L' trainControloggetto consente di specificare un metodo di ricampionamento. I metodi sono descritti nella documentazione di sezione 2.3 ed includono: boot, boot632, cv, LOOCV, LGOCV, repeatedcve oob. Sebbene alcuni di questi siano facili da dedurre, non tutti questi …
20 r  resampling  caret 

2
Classificazione dei test sui dati di squilibrio sovracampionato
Sto lavorando a dati gravemente squilibrati. In letteratura, vengono utilizzati diversi metodi per riequilibrare i dati utilizzando il ricampionamento (sovra o sottocampionamento). Due buoni approcci sono: SMOTE: Tecnica di sovracampionamento di minoranza sintetica ( SMOTE ) ADASYN: Approccio di campionamento sintetico adattivo per l'apprendimento sbilanciato ( ADASYN ) Ho implementato …

2
Test per il campionamento IID
Come testereste o verifichereste che il campionamento sia IID (indipendente e distribuito in modo identico)? Nota che non intendo gaussiano e identicamente distribuito, solo IID. E l'idea che mi viene in mente è quella di dividere ripetutamente il campione in due sottocampioni di uguale dimensione, eseguire il test di Kolmogorov-Smirnov …



1
Questo metodo di ricampionamento delle serie storiche è noto in letteratura? ha un nome?
Recentemente stavo cercando modi per ricampionare le serie storiche, in questo modo Preservare approssimativamente l'auto-correlazione di lunghi processi di memoria. Preservare il dominio delle osservazioni (ad esempio una serie temporale ricomposta di numeri interi è ancora una serie temporale di numeri interi). Può influire solo su alcune scale, se necessario. …


1
La centratura è necessaria quando si avvia il bootstrap del campione?
Durante la lettura di come approssimare la distribuzione del campione medio mi sono imbattuto nel metodo bootstrap non parametrico. Apparentemente si può approssimare la distribuzione di mediante la distribuzione di , dove indica la media campionaria di l'esempio bootstrap.X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* La mia domanda allora è: ho bisogno del centraggio? Per che …


5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.