Domande taggate «classification»

La classificazione statistica è il problema di identificare la sottopopolazione a cui appartengono le nuove osservazioni, in cui l'identità della sottopopolazione è sconosciuta, sulla base di una serie di dati di formazione contenenti osservazioni di cui è nota la sottopopolazione. Pertanto queste classificazioni mostreranno un comportamento variabile che può essere studiato dalle statistiche.

1
Pacchetto GBM vs. Caret tramite GBM
Ho usato il tuning del modello caret, ma poi rieseguendo il modello usando il gbmpacchetto. Comprendo che il caretpacchetto utilizza gbme l'output dovrebbe essere lo stesso. Tuttavia, solo un rapido test eseguito utilizzando data(iris)mostra una discrepanza nel modello di circa il 5% utilizzando RMSE e R ^ 2 come metrica …



2
Perché n-gram viene utilizzato nell'identificazione della lingua del testo anziché nelle parole?
In due famose librerie di identificazione linguistica, Compact Language Detector 2 per C ++ e rivelatore di lingua per Java, entrambi utilizzavano n-grammi (basati sui caratteri) per estrarre funzionalità di testo. Perché un bag-of-word (parola singola / dizionario) non viene utilizzato e qual è il vantaggio e lo svantaggio di …

2
Come calcolare i pesi del criterio Fisher?
Sto studiando il riconoscimento di modelli e l'apprendimento automatico e ho incontrato la seguente domanda. Considera un problema di classificazione di due classi con uguale probabilità di classe precedenteP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} e la distribuzione delle istanze in ciascuna classe data da p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} …

5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 



2
Perché l'aumento del numero di funzioni riduce le prestazioni?
Sto cercando di ottenere un'intuizione sul perché aumentare il numero di funzionalità potrebbe ridurre le prestazioni. Attualmente sto usando un classificatore LDA che offre prestazioni migliori bivariatamente tra alcune funzionalità, ma peggio quando si guardano più funzionalità. La mia precisione di classificazione viene eseguita utilizzando un xval stratificato di 10 …


2
PCA e foreste casuali
Per una recente competizione di Kaggle, ho definito (manualmente) 10 funzioni aggiuntive per il mio set di allenamento, che sarebbero state utilizzate per addestrare un classificatore di foreste casuale. Ho deciso di eseguire PCA sul set di dati con le nuove funzionalità, per vedere come si confrontavano tra loro. Ho …





Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.