Domande taggate «data-imputation»

Si riferisce a una classe generale di metodi utilizzati per "riempire" i dati mancanti. I metodi utilizzati per eseguire questa operazione in genere sono correlati all'interpolazione (http://en.wikipedia.org/wiki/Interpolation) e richiedono ipotesi sul motivo per cui i dati mancano (ad esempio "mancanti a caso")

3
Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret e NAs
Preferisco di gran lunga il caret per la sua capacità di regolazione dei parametri e l'interfaccia uniforme, ma ho osservato che richiede sempre set di dati completi (cioè senza NA) anche se il modello "nudo" applicato consente le NA. Ciò è molto fastidioso, in quanto si dovrebbero applicare metodi di …

4
Imputazione di valori mancanti per PCA
Ho usato la prcomp()funzione per eseguire un PCA (analisi del componente principale) in R. Tuttavia, c'è un bug in quella funzione in modo che il na.actionparametro non funzioni. Ho chiesto aiuto su stackoverflow ; due utenti hanno offerto due modi diversi di trattare i NAvalori. Tuttavia, il problema con entrambe …





3
Metodi per aggirare il problema della mancanza di dati nell'apprendimento automatico
Praticamente qualsiasi database che vogliamo fare previsioni usando algoritmi di machine learning troverà valori mancanti per alcune delle caratteristiche. Esistono diversi approcci per risolvere questo problema, per escludere le linee che hanno valori mancanti fino a quando non si riempiono con i valori medi delle caratteristiche. Vorrei utilizzare per un …

5
Pacchetti R imputazione KNN
Sto cercando un pacchetto di imputazione KNN. Ho esaminato il pacchetto di imputazione ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) ma per qualche ragione la funzione di imputazione KNN (anche quando segue l'esempio dalla descrizione) sembra solo per imputare i valori zero (come di seguito). Mi sono guardato intorno ma non riesco ancora a …


5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 





Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.