Statistiche e Big Data clustering

3

Clustering con K-Means e EM: come sono correlati?

Ho studiato algoritmi per il clustering dei dati (apprendimento non supervisionato): EM e k-medie. Continuo a leggere quanto segue: k-mean è una variante di EM, con le ipotesi che i cluster siano sferici. Qualcuno può spiegare la frase sopra? Non capisco cosa significhino sferica, e come siano correlati kmean ed …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Metriche delle prestazioni per valutare l'apprendimento non supervisionato

Per quanto riguarda l'apprendimento non supervisionato (come il clustering), ci sono metriche per valutare le prestazioni?

49 machine-learning clustering data-mining unsupervised-learning

3

È possibile eseguire il clustering di serie temporali in base alla forma della curva?

Ho dati di vendita per una serie di punti vendita e desidero categorizzarli in base alla forma delle loro curve nel tempo. I dati sono più o meno così (ma ovviamente non sono casuali e hanno alcuni dati mancanti): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for …

47 r time-series clustering

3

Interpretazione del predittore e / o della risposta trasformati in tronchi

Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log. Considera il caso di log(DV) = Intercept + B1*IV + Error Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio log(DV) = Intercept …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

La normalizzazione media e il ridimensionamento delle funzionalità sono necessari per il clustering di k-mean?

Quali sono le fasi di pre-elaborazione migliori (consigliate) prima di eseguire k-medie?

44 clustering normalization k-means

5

È importante ridimensionare i dati prima del clustering?

Ho trovato questo tutorial , che suggerisce che è necessario eseguire la funzione di ridimensionamento sulle funzionalità prima del clustering (credo che converta i dati in z-score). Mi chiedo se sia necessario. Lo sto chiedendo principalmente perché c'è un bel punto a gomito quando non ridimensiono i dati, ma scompare …

44 clustering k-means

8

Come eseguire il rilevamento della comunità in un social network / grafico ponderato?

Mi chiedo se qualcuno potrebbe suggerire quali sono i buoni punti di partenza quando si tratta di eseguire il rilevamento della comunità / il partizionamento / clustering dei grafici su un grafico che ha bordi ponderati e non indirizzati . Il grafico in questione ha circa 3 milioni di spigoli …

42 clustering data-visualization networks partitioning modularity

5

Clustering dinamico di distorsione temporale

Quale sarebbe l'approccio per utilizzare Dynamic Time Warping (DTW) per eseguire il clustering di serie temporali? Ho letto di DTW come un modo per trovare la somiglianza tra due serie storiche, mentre potrebbero essere spostate nel tempo. Posso usare questo metodo come misura di somiglianza per l'algoritmo di clustering come …

40 time-series clustering

5

'Raggruppamento' di serie storiche in R

Ho un insieme di dati di serie storiche. Ogni serie copre lo stesso periodo, anche se le date effettive di ciascuna serie temporale potrebbero non "allinearsi" esattamente. Vale a dire, se le serie temporali fossero lette in una matrice 2D, sarebbe simile a questa: date T1 T2 T3 .... TN …

38 r time-series clustering cointegration

3

Come selezionare un metodo di clustering? Come convalidare una soluzione di cluster (per giustificare la scelta del metodo)?

Uno dei maggiori problemi con l'analisi dei cluster è che potrebbe capitare di dover trarre conclusioni diverse quando si basano su diversi metodi di clustering utilizzati (inclusi diversi metodi di collegamento nel clustering gerarchico). Mi piacerebbe conoscere la tua opinione su questo - quale metodo sceglierai e come. Si potrebbe …

35 clustering validation model-evaluation hierarchical-clustering

2

Clustering gerarchico con dati di tipo misto: quale distanza / somiglianza usare?

Nel mio set di dati abbiamo variabili sia continue che naturalmente discrete. Voglio sapere se possiamo fare un cluster gerarchico usando entrambi i tipi di variabili. E se sì, quale misura di distanza è appropriata?

34 clustering similarities distance-functions mixed-type-data

4

Come interpretare la media della trama Silhouette?

Sto cercando di usare la trama silhouette per determinare il numero di cluster nel mio set di dati. Dato il set di dati Train , ho usato il seguente codice matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ …

34 data-visualization clustering matlab

3

Perché t-SNE non viene utilizzato come tecnica di riduzione della dimensionalità per il clustering o la classificazione?

In un recente incarico, ci è stato detto di utilizzare PCA sulle cifre MNIST per ridurre le dimensioni da 64 (8 x 8 immagini) a 2. Abbiamo quindi dovuto raggruppare le cifre utilizzando un modello di miscela gaussiana. La PCA che utilizza solo 2 componenti principali non produce cluster distinti …

34 classification clustering pca dimensionality-reduction tsne

3

Perché c'è una differenza tra il calcolo manuale di un intervallo di confidenza della regressione logistica del 95% e l'uso della funzione confint () in R?

Carissimi, ho notato qualcosa di strano che non posso spiegare, vero? In sintesi: l'approccio manuale al calcolo di un intervallo di confidenza in un modello di regressione logistica e la funzione R confint()danno risultati diversi. Ho attraversato la regressione logistica applicata di Hosmer & Lemeshow (2a edizione). Nel terzo capitolo …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

3

(Perché) La SOM in stile Kohonen è caduta in disgrazia?

Per quanto ne so, i SOM in stile Kohonen hanno avuto un picco nel 2005 e non hanno visto tanto favore di recente. Non ho trovato alcun documento che affermi che i SOM sono stati inclusi in un altro metodo o si sono dimostrati equivalenti a qualcos'altro (a dimensioni superiori, …

33 clustering self-organizing-maps

Domande taggate «clustering»