Domande taggate «k-means»

k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo

5
Come capire gli svantaggi di K-significa
K-medie è un metodo ampiamente utilizzato nell'analisi dei cluster. Secondo la mia comprensione, questo metodo NON richiede NESSUNA ipotesi, ovvero forniscimi un set di dati e un numero predefinito di cluster, k, e applico solo questo algoritmo che minimizza la somma degli errori al quadrato (SSE), all'interno del cluster al …


6
Come stabilire se i dati sono "raggruppati" abbastanza per consentire agli algoritmi di raggruppamento di produrre risultati significativi?
Come faresti a sapere se i tuoi dati (ad alta dimensione) mostrano un clustering sufficiente in modo che i risultati provenienti da kmean o altri algoritmi di clustering siano effettivamente significativi? Per l'algoritmo k-mean in particolare, quanto dovrebbe essere significativa una riduzione della varianza all'interno del cluster affinché i risultati …

6
Clustering sull'output di t-SNE
Ho un'applicazione in cui sarebbe utile raggruppare un set di dati rumorosi prima di cercare effetti di sottogruppo all'interno dei cluster. Ho esaminato PCA per la prima volta, ma sono necessari circa 30 componenti per arrivare al 90% della variabilità, quindi il clustering su un paio di PC genererà molte …



5
Qual è la relazione tra k-mean clustering e PCA?
È pratica comune applicare PCA (analisi dei componenti principali) prima di un algoritmo di clustering (come k-medie). Si ritiene che in pratica migliori i risultati del clustering (riduzione del rumore). Tuttavia, sono interessato a uno studio comparativo e approfondito della relazione tra PCA e k-medie. Ad esempio, Chris Ding e …

10
Come decidere il numero corretto di cluster?
Troviamo i centri del cluster e assegniamo punti a k ​​diversi bin del cluster nel clustering k-mean che è un algoritmo molto noto e si trova quasi in ogni pacchetto di machine learning in rete. Ma la parte mancante e più importante secondo me è la scelta di un k …



5
È importante ridimensionare i dati prima del clustering?
Ho trovato questo tutorial , che suggerisce che è necessario eseguire la funzione di ridimensionamento sulle funzionalità prima del clustering (credo che converta i dati in z-score). Mi chiedo se sia necessario. Lo sto chiedendo principalmente perché c'è un bel punto a gomito quando non ridimensiono i dati, ma scompare …




5
Come gestire i dati gerarchici / nidificati nell'apprendimento automatico
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.