Domande taggate «clustering»

L'analisi del cluster è il compito di partizionare i dati in sottoinsiemi di oggetti in base alla reciproca "somiglianza", senza utilizzare conoscenze preesistenti come le etichette di classe. [Gli errori standard cluster e / o i campioni cluster dovrebbero essere contrassegnati come tali; NON usare il tag "clustering" per loro.]

5
Come capire gli svantaggi di K-significa
K-medie è un metodo ampiamente utilizzato nell'analisi dei cluster. Secondo la mia comprensione, questo metodo NON richiede NESSUNA ipotesi, ovvero forniscimi un set di dati e un numero predefinito di cluster, k, e applico solo questo algoritmo che minimizza la somma degli errori al quadrato (SSE), all'interno del cluster al …

8
Perché la distanza euclidea non è una buona metrica in dimensioni elevate?
Ho letto che "la distanza euclidea non è una buona distanza in dimensioni elevate". Immagino che questa affermazione abbia qualcosa a che fare con la maledizione della dimensionalità, ma cosa esattamente? Inoltre, che cosa sono le "alte dimensioni"? Ho applicato il clustering gerarchico usando la distanza euclidea con 100 funzioni. …


6
Come stabilire se i dati sono "raggruppati" abbastanza per consentire agli algoritmi di raggruppamento di produrre risultati significativi?
Come faresti a sapere se i tuoi dati (ad alta dimensione) mostrano un clustering sufficiente in modo che i risultati provenienti da kmean o altri algoritmi di clustering siano effettivamente significativi? Per l'algoritmo k-mean in particolare, quanto dovrebbe essere significativa una riduzione della varianza all'interno del cluster affinché i risultati …

3
Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Clustering sull'output di t-SNE
Ho un'applicazione in cui sarebbe utile raggruppare un set di dati rumorosi prima di cercare effetti di sottogruppo all'interno dei cluster. Ho esaminato PCA per la prima volta, ma sono necessari circa 30 componenti per arrivare al 90% della variabilità, quindi il clustering su un paio di PC genererà molte …

6
Scelta di un metodo di clustering
Quando si utilizza l'analisi dei cluster su un set di dati per raggruppare casi simili, è necessario scegliere tra un gran numero di metodi di clustering e misure di distanza. A volte, una scelta potrebbe influenzare l'altra, ma ci sono molte possibili combinazioni di metodi. Qualcuno ha qualche consiglio su …



6
Dove tagliare un dendrogramma?
Il clustering gerarchico può essere rappresentato da un dendrogramma. Tagliare un dendrogramma a un certo livello dà una serie di cluster. Il taglio ad un altro livello offre un altro gruppo di cluster. Come sceglieresti dove tagliare il dendrogramma? C'è qualcosa che potremmo considerare un punto ottimale? Se guardo un …

5
Qual è la relazione tra k-mean clustering e PCA?
È pratica comune applicare PCA (analisi dei componenti principali) prima di un algoritmo di clustering (come k-medie). Si ritiene che in pratica migliori i risultati del clustering (riduzione del rumore). Tuttavia, sono interessato a uno studio comparativo e approfondito della relazione tra PCA e k-medie. Ad esempio, Chris Ding e …

10
Come decidere il numero corretto di cluster?
Troviamo i centri del cluster e assegniamo punti a k ​​diversi bin del cluster nel clustering k-mean che è un algoritmo molto noto e si trova quasi in ogni pacchetto di machine learning in rete. Ma la parte mancante e più importante secondo me è la scelta di un k …

2
Come può una rete neurale artificiale ANN essere utilizzata per il clustering senza supervisione?
Capisco come un artificial neural network (ANN), può essere addestrato in modo supervisionato usando backpropogation per migliorare l'adattamento diminuendo l'errore nelle previsioni. Ho sentito che un ANN può essere utilizzato per l'apprendimento senza supervisione, ma come può essere fatto senza una funzione di costo di qualche tipo per guidare le …

10
Clustering con una matrice di distanza
Ho una matrice (simmetrica) Mche rappresenta la distanza tra ogni coppia di nodi. Per esempio, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …
52 clustering 


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.