Scienza dei dati bigdata

3

Gestire un set di funzionalità in costante aumento

Sto lavorando a un sistema di rilevamento delle frodi. In questo campo, nuove frodi appaiono regolarmente, quindi è necessario aggiungere nuove funzionalità al modello su base continuativa. Mi chiedo quale sia il modo migliore per gestirlo (dal punto di vista del processo di sviluppo)? L'aggiunta di una nuova funzionalità nel …

10 machine-learning bigdata

4

Perché è difficile garantire efficienza durante l'utilizzo delle librerie?

Qualsiasi elaborazione di database di piccole dimensioni può essere facilmente gestita dagli script Python / Perl / ..., che utilizza librerie e / o persino utilità dal linguaggio stesso. Tuttavia, quando si tratta di prestazioni, le persone tendono a cercare linguaggi C / C ++ / di basso livello. La …

10 bigdata efficiency performance

1

Evita di ricaricare DataFrame tra diversi kernel Python

Esiste un modo per mantenere una variabile (tabella di grandi dimensioni / frame di dati) in memoria e condividerla su più notebook ipython? Cercherei qualcosa, concettualmente simile alle variabili persistenti di MATLAB. Lì è possibile chiamare una funzione / libreria personalizzata da più singoli editor (notebook), e avere quella funzione …

10 python bigdata matlab jupyter ipython

3

Come fare il prodotto interno in lotti a Tensorflow?

Ho due tensori a:[batch_size, dim] b:[batch_size, dim]. Voglio fare un prodotto interno per ogni coppia nel lotto, generando c:[batch_size, 1], dove c[i,0]=a[i,:].T*b[i,:]. Come?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Riconoscimento dell'attività umana tramite problema con il set di dati dello smartphone

Sono nuovo di questa comunità e spero che la mia domanda si adatti bene qui. Come parte del mio corso di analisi dei dati universitari ho scelto di fare il progetto sul riconoscimento delle attività umane utilizzando set di dati per smartphone. Per quanto mi riguarda, questo argomento riguarda l'apprendimento …

9 bigdata machine-learning databases clustering data-mining

1

Differenza tra interpolate () e fillna () nei panda

Poiché il metodo interpolare e fillna fa lo stesso lavoro di riempimento di valori na. Qual è la differenza di base tra i due. Qual è il significato di avere questi due diversi metodi ?? Qualcuno può spiegarmi in termini laici. Ho già visitato la documentazione ufficiale e volevo sapere …

9 python bigdata pandas jupyter

2

Best practice per l'apprendimento automatico per set di dati di grandi dimensioni

Sto per laurearmi dal mio Master e ho imparato l'apprendimento automatico e ho svolto progetti di ricerca con esso. Mi chiedo quali siano le migliori pratiche del settore quando si eseguono attività di machine learning con Big Dataset (come 100s GB o TB). Apprezzo se i colleghi data scientist possano …

9 machine-learning predictive-modeling bigdata

1

Significato originale di "Intelligence" in "Business Intelligence"

Cosa significa in origine "Intelligence" in "Business Intelligence" ? Significa come usato in " Intelligenza artificiale " o come usato in " Agenzia di intelligence " ? In altre parole, " Business Intelligence " significa: "Agire in modo intelligente e intelligente nel mondo degli affari" o "Raccogliere dati e informazioni …

8 bigdata definitions terminology history

1

Errore in cascata in Apache Storm

Durante la presentazione e il materiale di Summingbird da parte di Twitter, uno dei motivi menzionati per l'utilizzo dei cluster Storm e Hadoop insieme in Summingbird è che l'elaborazione attraverso Storm si traduce in una cascata di errori. Al fine di evitare questa cascata di errori e accumulo, il cluster …

8 bigdata apache-hadoop

Domande taggate «bigdata»