Statistiche e Big Data clustering

2

Rilevamento di schemi di imbrogli in un esame a più domande

DOMANDA: Ho dati binari su domande d'esame (corretto / errato). Alcune persone potrebbero aver avuto accesso preliminare a un sottoinsieme di domande e alle loro risposte corrette. Non so chi, quanti o quali. Se non ci fossero imbrogli, supponiamo che modellerei la probabilità di una risposta corretta per l'elemento come …

25 r clustering classification psychometrics

5

Procedura di clustering in cui ciascun cluster ha un uguale numero di punti?

Ho alcuni punti in R p , e voglio raggruppare i punti in modo che:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Ciascun cluster contiene un numero uguale di elementi di . (Supponiamo che il numero di cluster divida .)XXXnnn Ogni cluster è "spazialmente coeso" in un certo senso, come i cluster di medie.kkk È facile pensare …

25 machine-learning clustering k-means unsupervised-learning

3

Determinare diversi cluster di dati 1d dal database

Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …

24 clustering k-means

3

La riduzione della dimensionalità per la visualizzazione dovrebbe essere considerata un problema "chiuso", risolto da t-SNE?

Ho letto molto sull'algoritmo -sne per la riduzione della dimensionalità. Sono rimasto molto colpito dalle prestazioni su set di dati "classici", come MNIST, in cui raggiunge una chiara separazione delle cifre ( vedi articolo originale ):ttt L'ho anche usato per visualizzare le funzionalità apprese da una rete neurale che mi …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

2

Clustering delle variabili in base alle correlazioni tra di loro

Domande: Ho una grande matrice di correlazione. Invece di raggruppare singole correlazioni, voglio raggruppare le variabili in base alle loro correlazioni reciproche, vale a dire se la variabile A e la variabile B hanno correlazioni simili alle variabili da C a Z, allora A e B dovrebbero far parte dello …

23 correlation clustering correlation-matrix

1

Utilizzo della correlazione come metrica della distanza (per il clustering gerarchico)

Vorrei raggruppare gerarchicamente i miei dati, ma piuttosto che usare la distanza euclidea, vorrei usare la correlazione. Inoltre, poiché il coefficiente di correlazione varia da -1 a 1, con -1 e 1 che indicano "coregolamentazione" nel mio studio, sto trattando sia -1 che 1 come d = 0. Quindi il …

22 correlation clustering distance hierarchical-clustering

3

Cluster o classificazione supervisionati?

La seconda domanda è che ho trovato in una discussione da qualche parte sul web parlare di "clustering supervisionato", per quanto ne so, il clustering non è supervisionato, quindi qual è esattamente il significato dietro "clustering supervisionato"? Qual è la differenza rispetto alla "classificazione"? Ci sono molti link che ne …

22 clustering classification unsupervised-learning statistical-learning

2

Clustering di una matrice binaria

Ho una matrice semi-piccola di caratteristiche binarie di dimensione 250k x 100. Ogni riga è un utente e le colonne sono "tag" binari di alcuni comportamenti dell'utente, ad esempio "like_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 …

22 r clustering binary-data

8

Esegui il clustering di K-medie (o dei suoi parenti stretti) con solo una matrice di distanza, non dati punto per caratteristica

Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …

22 machine-learning clustering data-mining k-means distance

2

Come raggruppare le serie temporali?

Ho una domanda sull'analisi dei cluster. Ci sono 3000 aziende che devono essere raggruppate in base al loro consumo di energia nell'arco di 5 anni. Ogni azienda ha valori per ogni ora per 5 anni. Vorrei scoprire se alcune società hanno lo stesso modello di potere d'uso nel periodo di …

22 time-series clustering spss

2

Confronto tra clustering: indice di Rand e variazione delle informazioni

Mi chiedevo se qualcuno avesse qualche intuizione o intuizione dietro la differenza tra la Variazione delle Informazioni e l' Indice Rand per il confronto dei cluster. Ho letto l'articolo " Comparing Clusterings - An Information Based Distance " di Marina Melia (Journal of Multivariate Analysis, 2007), ma, oltre a notare …

21 machine-learning clustering metric

4

Perché i dati misti sono un problema per gli algoritmi di clustering basati su euclidi?

La maggior parte degli algoritmi classici di riduzione del clustering e della dimensionalità (clustering gerarchico, analisi dei componenti principali, k-media, mappe autoorganizzanti ...) sono progettati specificamente per i dati numerici e i loro dati di input sono visti come punti in uno spazio euclideo. Questo è ovviamente un problema, dato …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

2

Se il clustering k-mean è una forma di modellizzazione della miscela gaussiana, può essere usato quando i dati non sono normali?

Sto leggendo Bishop sull'algoritmo EM per GMM e la relazione tra GMM e k-mean. In questo libro si dice che k-mean è una versione difficile di GMM. Mi chiedo questo implica che se i dati che sto cercando di raggruppare non sono gaussiani, non posso usare k-mean (o almeno non …

21 clustering data-mining k-means gaussian-mixture

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

Esiste un algoritmo simile a un albero decisionale per il clustering senza supervisione?

Ho un set di dati composto da 5 funzioni: A, B, C, D, E. Sono tutti valori numerici. Invece di fare un clustering basato sulla densità, quello che voglio fare è raggruppare i dati in modo simile ad un albero decisionale. L'approccio intendo è qualcosa del genere: L'algoritmo può dividere …

20 r machine-learning clustering cart

Domande taggate «clustering»