Scienza dei dati data-cleaning

6

Come posso trasformare i nomi in un set di dati confidenziali per renderlo anonimo, ma preservare alcune delle caratteristiche dei nomi?

Motivazione Lavoro con set di dati che contengono informazioni di identificazione personale (PII) e talvolta ho bisogno di condividere parte di un set di dati con terze parti, in un modo che non espone le PII e sottopone il mio datore di lavoro alla responsabilità. Il nostro approccio abituale qui …

42 data-cleaning anonymization

7

Processi organizzati per la pulizia dei dati

Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …

34 r data-cleaning

1

Perché xgboost è molto più veloce di sklearn GradientBoostingClassifier?

Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Approccio generale per estrarre il testo chiave dalla frase (nlp)

Data una frase del tipo: Complimentary gym access for two for the length of stay ($12 value per person per day) Quale approccio generale posso adottare per identificare la parola palestra o accesso alla palestra?

27 machine-learning nlp text-mining data-cleaning

4

Come annotare documenti di testo con metadati?

Avendo molti documenti di testo (in linguaggio naturale, non strutturato), quali sono i modi possibili per annotarli con alcuni metadati semantici? Ad esempio, considera un breve documento: I saw the company's manager last day. Per poter estrarre informazioni da esso, devono essere annotate con dati aggiuntivi per essere meno ambigue. …

18 nlp metadata data-cleaning text-mining

3

esiste uno strumento di riordino dei dati per python / panda simile allo strumento R tidyr?

Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.

18 r python dataset data-cleaning pandas

1

rimuovendo le stringhe dopo un certo carattere in un dato testo

Ho un set di dati come quello qui sotto. Voglio rimuovere tutti i caratteri dopo il carattere ©. Come posso farlo in R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

4

In che modo la corrispondenza fuzzy degli indirizzi postali?

Vorrei sapere come abbinare gli indirizzi postali quando il loro formato differisce o quando uno di essi è scritto male. Finora ho trovato diverse soluzioni, ma penso che siano piuttosto vecchie e non molto efficienti. Sono sicuro che esistono alcuni metodi migliori, quindi se hai dei riferimenti da leggere, sono …

14 text-mining data-cleaning

5

Le moderne librerie R e / o Python rendono SQL obsoleto?

Lavoro in un ufficio in cui SQL Server è la spina dorsale di tutto ciò che facciamo, dall'elaborazione dei dati alla pulizia fino alla pulizia. Il mio collega è specializzato nella scrittura di funzioni complesse e procedure memorizzate per elaborare metodicamente i dati in entrata in modo che possano essere …

14 python r data-cleaning data sql

1

Converti una colonna panda di int in tipo di dati data / ora

Ho un dataframe che, tra l'altro, contiene una colonna del numero di millisecondi passati dal 1970-1-1. Devo convertire questa colonna di ints in dati di data / ora, quindi posso in definitiva convertirla in una colonna di dati di data / ora aggiungendo la serie di colonne di data / …

13 python time-series data-cleaning pandas

2

Quando utilizzare lo scaler standard e quando Normalizer?

Capisco cosa fa lo scalare standard e cosa fa il normalizzatore, secondo la documentazione di scikit: normalizzatore , scaler standard . So quando viene applicato lo scaler standard. Ma in quale scenario viene applicato Normalizer? Ci sono scenari in cui uno è preferito rispetto all'altro?

12 python scikit-learn data-cleaning normalization

3

Esistono buoni modelli linguistici predefiniti per Python?

Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Quanti dati sono sufficienti per addestrare il mio modello di apprendimento automatico?

Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining. Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico …

11 machine-learning data-mining dataset data-cleaning data

3

Le migliori lingue per il calcolo scientifico [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

Creazione di nuove colonne ripetendo le righe nel frame di dati Panda

Ho un frame di dati Panda (X11) come questo: In realtà ho 99 colonne fino a dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 …

10 python data-cleaning pandas anaconda

Domande taggate «data-cleaning»