Scienza dei dati bigdata

8

Ho letto in questo post Il linguaggio R è adatto ai Big Data che costituiscono i big data 5TB, e mentre fa un buon lavoro nel fornire informazioni sulla fattibilità di lavorare con questo tipo di dati in Resso fornisce pochissime informazioni Python. Mi chiedevo se Pythonposso lavorare anche con …

14 bigdata python

1

Quando un database relazionale ha prestazioni migliori rispetto a un no relazionale

Quando un database relazionale, come MySQL, ha prestazioni migliori rispetto a un no relazionale, come MongoDB? Ho visto una domanda su Quora l'altro giorno, sul perché Quora utilizza ancora MySQL come backend e che le loro prestazioni sono ancora buone.

13 bigdata performance databases nosql

4

Case study sui big data o esempio di utilizzo

Ho letto molti blog \ articoli su come i diversi tipi di settori utilizzano Big Data Analytic. Ma la maggior parte di questi articoli non menziona Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati Che tipo di strumenti utilizzavano le tecnologie per elaborare i …

13 data-mining bigdata usecase

4

Possiamo trarre vantaggio dall'uso dell'apprendimento di trasferimento durante l'addestramento di modelli word2vec?

Sto cercando di trovare pesi pre-allenati di modelli già addestrati come i dati di Google News ecc. Ho trovato difficile addestrare un nuovo modello con una quantità sufficiente (10 GB ecc.) Di dati per me stesso. Quindi, voglio trarre beneficio dall'apprendimento del trasferimento in cui sarei in grado di ottenere …

13 machine-learning bigdata word2vec

7

Che cos'è un "vecchio nome" di data scientist?

Termini come "data science" e "data scientist" sono sempre più utilizzati in questi giorni. Molte aziende stanno assumendo "data scientist". Ma non credo sia un lavoro completamente nuovo. I dati esistevano dal passato e qualcuno doveva occuparsene. Immagino che il termine "data scientist" diventi più popolare perché suona più elegante …

12 bigdata

2

Algoritmo di corrispondenza delle preferenze

C'è questo progetto laterale a cui sto lavorando dove devo strutturare una soluzione al seguente problema. Ho due gruppi di persone (clienti). Il gruppo Aintende acquistare e il gruppo Bintende vendere un determinato prodotto X. Il prodotto ha una serie di attributi x_ie il mio obiettivo è facilitare la transazione …

12 bigdata text-mining recommender-system

2

Svantaggi tra Storm e Hadoop (MapReduce)

Qualcuno può gentilmente parlarmi dei compromessi coinvolti nella scelta tra Storm e MapReduce in Hadoop Cluster per l'elaborazione dei dati? Naturalmente, a parte quello ovvio, Hadoop (elaborazione tramite MapReduce in un cluster Hadoop) è un sistema di elaborazione batch e Storm è un sistema di elaborazione in tempo reale. Ho …

12 bigdata efficiency apache-hadoop distributed

3

In che modo una query in un enorme database viene restituita con una latenza trascurabile?

Ad esempio, quando cerchi qualcosa su Google, i risultati ritornano all'istante. Capisco che Google ordina e indicizza le pagine con algoritmi ecc., Ma immagino che non sia possibile indicizzare i risultati di ogni singola query possibile (e i risultati sono personalizzati, il che rende ciò ancora più irrealizzabile)? Inoltre, la …

12 bigdata google search

1

Quante celle LSTM dovrei usare?

Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

FPGrowth è ancora considerato "stato dell'arte" nelle miniere di pattern frequenti?

Per quanto ne so lo sviluppo di algoritmi per risolvere il problema Frequent Pattern Mining (FPM), la strada dei miglioramenti ha alcuni punti di controllo principali. In primo luogo, l' algoritmo Apriori è stato proposto nel 1993, da Agrawal et al. , insieme alla formalizzazione del problema. L'algoritmo è stato …

12 bigdata data-mining efficiency state-of-the-art

4

Lavorare con i cluster HPC

Nella mia università, abbiamo un cluster di elaborazione HPC. Uso il cluster per addestrare classificatori e così via. Quindi, di solito, per inviare un lavoro al cluster, (ad esempio script python scikit-learn), devo scrivere uno script Bash che contenga (tra gli altri) un comando simile qsub script.py. Tuttavia, trovo questo …

11 bigdata data-mining

3

Le migliori lingue per il calcolo scientifico [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Che è più veloce: PostgreSQL vs MongoDB su grandi set di dati JSON?

Ho un grande set di dati con oggetti JSON da 9m a ~ 300 byte ciascuno. Sono post da un aggregatore di link: sostanzialmente link (un URL, titolo e ID autore) e commenti (testo e ID autore) + metadati. Potrebbero benissimo essere record relazionali in una tabella, tranne per il …

10 data-mining bigdata databases sql mongodb

2

Rilevamento anomalo / anomalia scalabile

Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache …

10 data-mining bigdata algorithms outlier

3

In che modo le varie tecniche statistiche (regressione, PCA, ecc.) Si adattano alle dimensioni e alla dimensione del campione?

Esiste una tabella generale nota di tecniche statistiche che spiega come si adattano alle dimensioni e alle dimensioni del campione? Ad esempio, un mio amico mi ha detto l'altro giorno che il tempo di calcolo del semplice ordinamento rapido dei dati monodimensionali di dimensione n va come n * log …

10 bigdata statistics efficiency scalability

Domande taggate «bigdata»