Domande taggate «bigdata»

Big data è il termine per una raccolta di set di dati così grandi e complessi che diventa difficile elaborarli utilizzando strumenti di gestione di database disponibili o applicazioni di elaborazione dati tradizionali. Le sfide includono acquisizione, cura, archiviazione, ricerca, condivisione, trasferimento, analisi e visualizzazione.

8
Python è adatto per i big data
Ho letto in questo post Il linguaggio R è adatto ai Big Data che costituiscono i big data 5TB, e mentre fa un buon lavoro nel fornire informazioni sulla fattibilità di lavorare con questo tipo di dati in Resso fornisce pochissime informazioni Python. Mi chiedevo se Pythonposso lavorare anche con …
14 bigdata  python 


4
Case study sui big data o esempio di utilizzo
Ho letto molti blog \ articoli su come i diversi tipi di settori utilizzano Big Data Analytic. Ma la maggior parte di questi articoli non menziona Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati Che tipo di strumenti utilizzavano le tecnologie per elaborare i …


7
Che cos'è un "vecchio nome" di data scientist?
Termini come "data science" e "data scientist" sono sempre più utilizzati in questi giorni. Molte aziende stanno assumendo "data scientist". Ma non credo sia un lavoro completamente nuovo. I dati esistevano dal passato e qualcuno doveva occuparsene. Immagino che il termine "data scientist" diventi più popolare perché suona più elegante …
12 bigdata 

2
Algoritmo di corrispondenza delle preferenze
C'è questo progetto laterale a cui sto lavorando dove devo strutturare una soluzione al seguente problema. Ho due gruppi di persone (clienti). Il gruppo Aintende acquistare e il gruppo Bintende vendere un determinato prodotto X. Il prodotto ha una serie di attributi x_ie il mio obiettivo è facilitare la transazione …

2
Svantaggi tra Storm e Hadoop (MapReduce)
Qualcuno può gentilmente parlarmi dei compromessi coinvolti nella scelta tra Storm e MapReduce in Hadoop Cluster per l'elaborazione dei dati? Naturalmente, a parte quello ovvio, Hadoop (elaborazione tramite MapReduce in un cluster Hadoop) è un sistema di elaborazione batch e Storm è un sistema di elaborazione in tempo reale. Ho …


1
Quante celle LSTM dovrei usare?
Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


4
Lavorare con i cluster HPC
Nella mia università, abbiamo un cluster di elaborazione HPC. Uso il cluster per addestrare classificatori e così via. Quindi, di solito, per inviare un lavoro al cluster, (ad esempio script python scikit-learn), devo scrivere uno script Bash che contenga (tra gli altri) un comando simile qsub script.py. Tuttavia, trovo questo …

3
Le migliori lingue per il calcolo scientifico [chiuso]
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


2
Rilevamento anomalo / anomalia scalabile
Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.