Domande taggate «clustering»

L'analisi o il clustering del cluster è il compito di raggruppare un insieme di oggetti in modo tale che gli oggetti nello stesso gruppo (chiamato cluster) siano più simili (in un certo senso o nell'altro) tra loro rispetto a quelli di altri gruppi (cluster) . È un compito principale del data mining esplorativo e una tecnica comune per l'analisi dei dati statistici, utilizzata in molti campi, tra cui l'apprendimento automatico, il riconoscimento dei modelli, l'analisi delle immagini, il recupero delle informazioni ecc.

2
Clustering di visitatori unici per useragent, ip, session_id
Dati i dati di accesso al sito Web nel modulo session_id, ip, user_agente, facoltativamente, il timestamp, seguendo le condizioni seguenti, come sarebbe meglio raggruppare le sessioni in visitatori unici? session_id: è un ID assegnato a ogni nuovo visitatore. Non scade, tuttavia se l'utente non accetta i cookie / cancella i …
15 clustering 

2
K veloce significa algoritmo per 10 ^ 10 punti?
Sto cercando di fare un cluster di k-medie su un insieme di punti 10-dimensionali. Il trucco: ci sono 10 ^ 10 punti . Sto cercando solo il centro e le dimensioni dei cluster più grandi (diciamo da 10 a 100 cluster); Non mi interessa in quale cluster finisce ogni punto. …




1
MinHashing vs SimHashing
Supponiamo di avere cinque set che vorrei raggruppare. Comprendo che la tecnica di SimHashing descritta qui: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ potrebbe produrre tre cluster ( {A}, {B,C,D}e {E}), per esempio, se i risultati sono stati: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Allo stesso modo, …

1
Quante celle LSTM dovrei usare?
Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


4
Utilizzo del clustering nell'elaborazione del testo
Ciao, questa è la mia prima domanda nello stack di Data Science. Voglio creare un algoritmo per la classificazione del testo. Supponiamo che io abbia una grande serie di testi e articoli. Diciamo circa 5000 semplici testi. Per prima cosa uso una semplice funzione per determinare la frequenza di tutte …

3
Le migliori lingue per il calcolo scientifico [chiuso]
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Convergenza nel metodo k-media di Hartigan-Wong e altri algoritmi
Ho cercato di comprendere i diversi algoritmi di clustering di k-means principalmente implementati nel statspacchetto del Rlinguaggio. Capisco l'algoritmo di Lloyd e l'algoritmo online di MacQueen. Il modo in cui li capisco è il seguente: Algoritmo di Lloyd: Inizialmente vengono scelte le osservazioni casuali "k" che serviranno da centroidi dei …
10 r  clustering  k-means 


1
Clustering dei dati dei clienti archiviati in ElasticSearch
Ho un sacco di profili dei clienti memorizzati in un cluster di elasticsearch . Questi profili sono ora utilizzati per la creazione di gruppi target per i nostri abbonamenti e-mail. I gruppi target ora vengono formati manualmente utilizzando le funzionalità di ricerca sfaccettata di elasticsearch (come ottenere tutti i clienti …

3
Relazione tra convoluzione in matematica e CNN
Ho letto la spiegazione della convoluzione e la capisco fino a un certo punto. Qualcuno può aiutarmi a capire come questa operazione si collega alla convoluzione nelle reti neurali convoluzionali? È una funzione simile a un filtro gche applica peso?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.