Statistiche e Big Data clustering

2

Sto cercando un buon tutorial sul clustering dei dati Rusando il processo gerarchico di dirichlet (HDP) (uno dei metodi bayesiani non parametrici recenti e popolari). C'è DPpackage(IMHO, il più completo di tutti quelli disponibili) Rper l'analisi bayesiana non parametrica. Ma non sono in grado di comprendere R Newsabbastanza bene gli …

17 r bayesian clustering nonparametric

1

Jenks Natural Breaks in Python: come trovare il numero ottimale di pause?

Ho trovato questa implementazione di Python del Breaks Jenks naturale algoritmo e ho potuto farlo funzionare sulla mia macchina Windows 7. È abbastanza veloce e trova le pause in poco tempo, considerando le dimensioni dei miei geodati. Prima di utilizzare questo algoritmo di clustering per i miei dati, stavo usando …

17 python clustering optimization

3

Tracciare visivamente dati cluster multidimensionali

Ho un set di dati con 16 variabili e dopo aver raggruppato per kmean, desidero tracciare i due gruppi. Quali trame suggerisci di rappresentare visivamente i due cluster?

17 data-visualization clustering k-means

5

Perché k-mean non fornisce il minimo globale?

Ho letto che l'algoritmo k-mean converge solo in un minimo locale e non in un minimo globale. Perchè è questo? Posso logicamente pensare a come l'inizializzazione possa influenzare il clustering finale e c'è una possibilità di clustering non ottimale, ma non ho trovato nulla che lo dimostrasse matematicamente. Inoltre, perché …

17 clustering k-means convergence gradient-descent minimum

4

Metodi di clustering che non richiedono la pre-specifica del numero di cluster

Esistono metodi di clustering "non parametrico" per i quali non è necessario specificare il numero di cluster? E altri parametri come il numero di punti per cluster, ecc.

17 clustering

3

Quale algoritmo implementa ward.D in hclust () se non è il criterio di Ward?

Quello usato dall'opzione "ward.D" (equivalente all'unica opzione "ward" di Ward nelle versioni R <= 3.0.3) non implementa il criterio di clustering di Ward (1963), mentre l'opzione "ward.D2" implementa quel criterio ( Murtagh e Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Apparentemente ward.D non implementa correttamente il criterio di Ward. Tuttavia sembra fare …

16 r clustering ward

4

Clustering dei dati 1D

Ho un set di dati, voglio creare cluster su quei dati in base a una sola variabile (non ci sono valori mancanti). Voglio creare 3 cluster basati su quella variabile. Quale algoritmo di clustering usare, k-mean, EM, DBSCAN ecc.? La mia domanda principale è: in quali circostanze dovrei usare k-mean …

16 clustering

2

Quando uniamo la riduzione della dimensionalità al clustering?

Sto cercando di eseguire il clustering a livello di documento. Ho costruito la matrice di frequenza dei termini-documento e sto cercando di raggruppare questi vettori ad alta dimensione usando k-medie. Invece di raggruppare direttamente, quello che ho fatto è stato prima applicare la decomposizione vettoriale singolare di LSA (Latent Semantic …

16 clustering pca dimensionality-reduction text-mining svd

4

Ipotesi di analisi dei cluster

Mi scuso per la questione rudimentale, sono nuovo di questa forma di analisi e finora ho una comprensione molto limitata dei principi. Mi chiedevo solo se molti dei presupposti parametrici per i test multivariati / univariati si applicano all'analisi del cluster? Molte delle fonti di informazione che ho letto in …

16 clustering assumptions

2

Qual è un buon metodo per il clustering di testo breve?

Sto lavorando a un problema di clustering di testo. I dati contengono diverse frasi. Esiste un buon algoritmo che raggiunge un'elevata precisione su testi brevi? Potete fornire buone referenze? Algoritmi come KMeans, clustering spettrale non funzionano bene per questo problema.

15 machine-learning clustering text-mining

4

L'accuratezza della macchina con incremento gradiente diminuisce all'aumentare del numero di iterazioni

Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Text Mining: come raggruppare i testi (ad es. Articoli di notizie) con l'intelligenza artificiale?

Ho creato alcune reti neurali (MLP (completamente connesse), Elman (ricorrenti)) per diversi compiti, come giocare a Pong, classificare cifre scritte a mano e cose ... Inoltre ho cercato di costruire alcune prime reti neurali convoluzionali, ad esempio per classificare note scritte a mano a più cifre, ma sono completamente nuovo …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

Come adattare il modello di miscela per il clustering

Ho due variabili: X e Y e ho bisogno di rendere il cluster massimo (e ottimale) = 5. Facciamo un diagramma ideale delle variabili come il seguente: Vorrei creare 5 cluster di questo. Qualcosa come questo: Quindi penso che questo sia un modello misto con 5 cluster. Ogni cluster ha …

15 r clustering gaussian-mixture

1

Qual è l'intuizione dietro i campioni scambiabili sotto l'ipotesi nulla?

I test di permutazione (chiamati anche test di randomizzazione, test di ri-randomizzazione o test esatto) sono molto utili e sono utili quando l'assunzione della distribuzione normale richiesta da per esempio t-testnon è soddisfatta e quando la trasformazione dei valori per classifica del test non parametrici come Mann-Whitney-U-testquesto porterebbero alla perdita …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Rilevazione di serie temporali e anomalie

Vorrei impostare un algoritmo per rilevare un'anomalia nelle serie temporali e ho intenzione di utilizzare il clustering per questo. Perché dovrei usare una matrice di distanza per il clustering e non i dati grezzi delle serie temporali ?, Per il rilevamento dell'anomalia, userò il clustering basato sulla densità, un algoritmo …

15 time-series clustering trend

Domande taggate «clustering»