Statistiche e Big Data clustering

5

Clustering di un set di dati con variabili sia discrete che continue

Ho un set di dati X che ha 10 dimensioni, 4 delle quali sono valori discreti. In effetti, quelle 4 variabili discrete sono ordinali, ovvero un valore più alto implica un semantico più alto / migliore. 2 di queste variabili discrete sono categoriche nel senso che per ciascuna di queste …

33 clustering k-means discrete-data continuous-data gaussian-mixture

2

Scelta del metodo di collegamento corretto per il clustering gerarchico

Sto eseguendo il clustering gerarchico sui dati raccolti ed elaborati dal dump dei dati reddit su Google BigQuery. Il mio processo è il seguente: Ricevi gli ultimi 1000 post in / r / politica Raccogli tutti i commenti Elaborare i dati e calcolare una n x mmatrice di dati (n: …

33 clustering distance unsupervised-learning hierarchical-clustering

1

In che modo la PCA aiuterebbe con un'analisi del clustering di k-mean?

Contesto : desidero classificare le aree residenziali di una città in gruppi in base alle loro caratteristiche socio-economiche, tra cui densità dell'unità abitativa, densità della popolazione, area verde, prezzo delle abitazioni, numero di scuole / centri sanitari / centri diurni, ecc. Voglio capire in quanti gruppi diversi possono essere suddivise …

32 clustering pca k-means dimensionality-reduction

3

Quali criteri di arresto per il clustering gerarchico agglomerativo vengono utilizzati nella pratica?

Ho trovato un'ampia letteratura che propone tutti i tipi di criteri (ad esempio Glenn et al. 1985 (pdf) e Jung et al. 2002 (pdf)). Tuttavia, la maggior parte di questi non è così facile da implementare (almeno dal mio punto di vista). Sto usando scipy.cluster.hierarchy per ottenere una gerarchia di …

32 clustering

3

Raggruppare un lungo elenco di stringhe (parole) in gruppi di somiglianza

Ho a portata di mano il seguente problema: ho un lungo elenco di parole, possibilmente nomi, cognomi, ecc. Devo raggruppare questo elenco di parole, in modo che parole simili, ad esempio parole con una simile modifica (Levenshtein) compaiano nella stesso cluster. Ad esempio "algoritmo" e "alogritmo" dovrebbero avere alte probabilità …

31 clustering k-means pattern-recognition

3

Analisi della classe latente vs. analisi del cluster - differenze nelle inferenze?

Quali sono le differenze nelle inferenze che possono essere fatte da un'analisi di classe latente (LCA) rispetto a un'analisi di cluster? È corretto che un LCA assuma una variabile latente sottostante che dà origine alle classi, mentre l'analisi del cluster è una descrizione empirica di attributi correlati da un algoritmo …

30 clustering latent-variable latent-class

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Confronto di dendrogrammi di clustering gerarchici ottenuti con distanze e metodi diversi

[Il titolo iniziale "Misurazione della somiglianza per gli alberi del cluster gerarchico" è stato successivamente modificato da @ttnphns per riflettere meglio l'argomento] Sto eseguendo una serie di analisi di gruppi gerarchici su un frame di dati dei record dei pazienti (ad esempio simile a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Sto sperimentando misure di …

28 r clustering distance-functions similarities dendrogram

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Differenza tra algoritmi k-medie standard e sferici

Vorrei capire qual è la principale differenza di implementazione tra algoritmi di clustering k-medie standard e sferici. In ogni passaggio, k-mean calcola le distanze tra i vettori degli elementi e i centroidi del cluster e riassegna il documento a questo cluster, il cui centroide è il più vicino. Quindi, tutti …

28 clustering data-mining algorithms k-means

4

Come eseguire la riduzione della dimensionalità in R

Ho una matrice in cui a (i, j) mi dice quante volte individuo ho visto la pagina j. Ci sono 27K individui e 95K pagine. Vorrei avere una manciata di "dimensioni" o "aspetti" nello spazio delle pagine che corrisponderebbero a gruppi di pagine che vengono spesso visualizzate insieme. Il mio …

28 r clustering dimensionality-reduction

2

Come utilizzare insieme variabili binarie e continue nel clustering?

Devo usare variabili binarie (valori 0 e 1) in k-medie. Ma k-mean funziona solo con variabili continue. So che alcune persone usano ancora queste variabili binarie in k-means ignorando il fatto che k-mean è progettato solo per variabili continue. Questo è inaccettabile per me. Domande: Quindi qual è il modo …

27 r clustering binary-data k-means mixed-type-data

3

In che modo trovare il centroide è diverso dal trovare la media?

Quando si esegue il clustering gerarchico, è possibile utilizzare molte metriche per misurare la distanza tra i cluster. Due di queste metriche implicano il calcolo dei centroidi e la media dei punti dati nei cluster. Qual è la differenza tra la media e il centroide? Questi non sono lo stesso …

26 clustering mean

3

LSA vs. PCA (clustering di documenti)

Sto studiando varie tecniche utilizzate nel raggruppamento di documenti e vorrei chiarire alcuni dubbi riguardanti PCA (analisi dei componenti principali) e LSA (analisi semantica latente). Prima cosa: quali sono le differenze tra loro? So che in PCA, la decomposizione SVD viene applicata alla matrice termine-covarianza, mentre in LSA è la …

25 clustering pca data-mining svd lsa

1

Qual è un valore accettabile del criterio di Calinski & Harabasz (CH)?

Ho fatto un'analisi dei dati cercando di raggruppare i dati longitudinali usando R e il pacchetto kml . I miei dati contengono circa 400 traiettorie individuali (come viene chiamato nel documento). Puoi vedere i miei risultati nella seguente immagine: Dopo aver letto il capitolo 2.2 "Scelta di un numero ottimale …

25 r clustering panel-data

Domande taggate «clustering»