Scienza dei dati databases

9

Come gestire il controllo della versione di grandi quantità di dati (binari)

Sono un dottorando in Geofisica e lavoro con grandi quantità di dati di immagini (centinaia di GB, decine di migliaia di file). Lo so svne gitabbastanza bene e arriva a valorizzare la storia di un progetto, unita alla capacità di lavorare facilmente insieme e avere protezione contro la corruzione del …

46 bigdata databases binary version-control

3

Best practice per l'archiviazione di modelli di machine learning Python

Quali sono le migliori pratiche per salvare, archiviare e condividere modelli di apprendimento automatico? In Python, generalmente archiviamo la rappresentazione binaria del modello, usando pickle o joblib. I modelli, nel mio caso, possono essere ~ 100Mo più grandi. Inoltre, joblib può salvare un modello su più file se non impostato …

24 python databases binary

4

Cosa rende i database colonnari adatti alla scienza dei dati?

Quali sono alcuni dei vantaggi degli archivi di dati colonnari che li rendono più adatti alla scienza e all'analisi dei dati?

23 databases tools

5

ingrandisci la mappa di calore dei nati marini

Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

Neo4j vs OrientDB vs Titan

Sto lavorando a un progetto di scienza dei dati relativo al mining delle relazioni sociali e ho bisogno di archiviare i dati in alcuni database di grafi. Inizialmente ho scelto Neo4j come database. Ma sembra che Neo4j non si ridimensioni bene. L'alternativa che ho scoperto sono Titan e oriebtDB. Ho …

13 data-mining graphs databases social-network-analysis

1

Quando un database relazionale ha prestazioni migliori rispetto a un no relazionale

Quando un database relazionale, come MySQL, ha prestazioni migliori rispetto a un no relazionale, come MongoDB? Ho visto una domanda su Quora l'altro giorno, sul perché Quora utilizza ancora MySQL come backend e che le loro prestazioni sono ancora buone.

13 bigdata performance databases nosql

5

Vantaggi del frame di dati Panda rispetto al normale database relazionale

In Science Data, molti sembrano essere utilizzando panda dataframes come il datastore. Quali sono le caratteristiche dei panda che lo rendono un archivio dati superiore rispetto ai normali database relazionali come MySQL , che vengono utilizzati per archiviare i dati in molti altri campi della programmazione? Mentre Panda fornisce alcune …

13 pandas databases

3

Modello di database efficiente per la memorizzazione di dati indicizzati da n-grammi

Sto lavorando su un'applicazione che richiede la creazione di un database molto grande di n-grammi che esiste in un corpus di testo di grandi dimensioni. Ho bisogno di tre tipi di operazioni efficienti: ricerca e inserimento indicizzati dall'n-grammo stesso e interrogazione per tutti gli n-grammi che contengono un sotto-n-grammo. Mi …

12 nlp databases

3

Le migliori lingue per il calcolo scientifico [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Che è più veloce: PostgreSQL vs MongoDB su grandi set di dati JSON?

Ho un grande set di dati con oggetti JSON da 9m a ~ 300 byte ciascuno. Sono post da un aggregatore di link: sostanzialmente link (un URL, titolo e ID autore) e commenti (testo e ID autore) + metadati. Potrebbero benissimo essere record relazionali in una tabella, tranne per il …

10 data-mining bigdata databases sql mongodb

2

Questo confronto Neo4j con il tempo di esecuzione di RDBMS è corretto?

Contesto: Di seguito è riportato il libro Graph D Database , che copre un test delle prestazioni menzionato nel libro Neo4j in azione : Le relazioni in un grafico formano naturalmente percorsi. Interrogazione o spostamento, il grafico prevede i seguenti percorsi. A causa della natura fondamentalmente orientata al percorso del …

10 databases nosql neo4j

3

Come fare il prodotto interno in lotti a Tensorflow?

Ho due tensori a:[batch_size, dim] b:[batch_size, dim]. Voglio fare un prodotto interno per ogni coppia nel lotto, generando c:[batch_size, 1], dove c[i,0]=a[i,:].T*b[i,:]. Come?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Riconoscimento dell'attività umana tramite problema con il set di dati dello smartphone

Sono nuovo di questa comunità e spero che la mia domanda si adatti bene qui. Come parte del mio corso di analisi dei dati universitari ho scelto di fare il progetto sul riconoscimento delle attività umane utilizzando set di dati per smartphone. Per quanto mi riguarda, questo argomento riguarda l'apprendimento …

9 bigdata machine-learning databases clustering data-mining

Domande taggate «databases»