Domande taggate «k-means»

k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo

2
k-significa vs k-mediana?
So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?




3
Adeguatezza di ANOVA dopo l'analisi dei cluster di k-medie
La notifica dopo la tabella ANOVA dopo l'analisi dei mezzi K indica che i livelli di significatività non devono essere considerati come test di mezzi uguali, poiché la soluzione del cluster è stata derivata in base alla distanza euclidea per massimizzare la distanza. Quale test devo usare per mostrare se …
14 anova  k-means 



5
Come posso convertire la distanza (euclidea) in punteggio di somiglianza
Sto usando kkk significa raggruppare per raggruppare le voci dei relatori. Quando confronto un'enunciazione con i dati degli altoparlanti raggruppati ottengo una distorsione media (basata sulla distanza euclidea). Questa distanza può essere nell'intervallo di [0,∞][0,∞][0,\infty] . Voglio convertire questa distanza in un punteggio di somiglianza [0,1][0,1][0,1] . Per favore guidami …






1
k-means || alias K-Means scalabili ++
Bahman Bahmani et al. introdotto k-mean ||, che è una versione più veloce di k-mean ++. Questo algoritmo è tratto da pagina 4 del loro articolo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., e Vassilvitskii, S. (2012). K-medie scalabili ++. Atti del VLDB Endowment , 5 (7), 622-633. …

5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.