Domande taggate «data-cleaning»

La pulizia dei dati è una fase preliminare dell'analisi statistica in cui il set di dati viene modificato per correggere gli errori e metterlo in una forma adatta per l'elaborazione da parte del software statistico.


7
Processi organizzati per la pulizia dei dati
Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …
34 r  data-cleaning 

1


4
Come annotare documenti di testo con metadati?
Avendo molti documenti di testo (in linguaggio naturale, non strutturato), quali sono i modi possibili per annotarli con alcuni metadati semantici? Ad esempio, considera un breve documento: I saw the company's manager last day. Per poter estrarre informazioni da esso, devono essere annotate con dati aggiuntivi per essere meno ambigue. …




5
Le moderne librerie R e / o Python rendono SQL obsoleto?
Lavoro in un ufficio in cui SQL Server è la spina dorsale di tutto ciò che facciamo, dall'elaborazione dei dati alla pulizia fino alla pulizia. Il mio collega è specializzato nella scrittura di funzioni complesse e procedure memorizzate per elaborare metodicamente i dati in entrata in modo che possano essere …
14 python  r  data-cleaning  data  sql 



3
Esistono buoni modelli linguistici predefiniti per Python?
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Quanti dati sono sufficienti per addestrare il mio modello di apprendimento automatico?
Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining. Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico …

3
Le migliori lingue per il calcolo scientifico [chiuso]
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.