Scienza dei dati r

15

Python vs R per l'apprendimento automatico

Ho appena iniziato a sviluppare un'applicazione di apprendimento automatico per scopi accademici. Attualmente sto usando R e mi sto allenando. Tuttavia, in molti posti, ho visto persone che usano Python . Cosa usano le persone nel mondo accademico e nell'industria e qual è la raccomandazione?

101 machine-learning r python

1

Come ottenere la correlazione tra due variabili categoriali e una variabile categoriale e una variabile continua?

Sto costruendo un modello di regressione e devo calcolare il seguito per verificare le correlazioni Correlazione tra 2 variabili categoriali multilivello Correlazione tra una variabile categoriale multilivello e una variabile continua VIF (fattore di inflazione di varianza) per variabili categoriali multilivello Credo che sia sbagliato usare il coefficiente di correlazione …

63 r statistics correlation

9

Il linguaggio R è adatto per i Big Data

R ha molte librerie che si rivolgono all'analisi dei dati (ad esempio JAGS, BUGS, ARULES ecc.), Ed è menzionata in libri di testo popolari come: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Apprendimento automatico con R". Ho visto una linea guida di 5 TB per un set di dati da considerare …

48 bigdata r

9

Alternative IDE per la programmazione R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Uso RStudio per la programmazione R. Ricordo i solidi IDE di altri stack tecnologici, come Visual Studio o Eclipse. Ho due domande: Quali altri IDE oltre a RStudio sono utilizzati (si prega di considerare di fornire una breve descrizione su di essi). Qualcuno di loro ha notevoli vantaggi rispetto a …

46 r tools rstudio programming

7

Processi organizzati per la pulizia dei dati

Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …

34 r data-cleaning

1

Perché xgboost è molto più veloce di sklearn GradientBoostingClassifier?

Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Parametri XGBoost per l'ipertensione

XGBoost ha fatto un ottimo lavoro, quando si tratta di gestire variabili dipendenti sia categoriche che continue. Ma come posso selezionare i parametri ottimizzati per un problema XGBoost? Ecco come ho applicato i parametri per un recente problema di Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta …

27 r python xgboost

5

Immagine VM per progetti di data science

Poiché ci sono numerosi strumenti disponibili per le attività di data science, è complicato installare tutto e creare un sistema perfetto. Esiste un'immagine Linux / Mac OS con Python, R e altri strumenti di data science open source installati e disponibili per l'uso immediato? Un Ubuntu o un sistema operativo …

24 python r tools

9

Qualche console R online?

Sto cercando una console online per la lingua R. Come scrivo il codice e il server dovrebbe eseguire e fornirmi l'output. Simile al sito Web Datacamp.

24 r statistics

3

esiste uno strumento di riordino dei dati per python / panda simile allo strumento R tidyr?

Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.

18 r python dataset data-cleaning pandas

6

Cosa usi per generare una dashboard in R?

Devo generare rapporti periodici (giornalieri, mensili) sul dashboard di analisi web. Saranno statici e non richiedono interazione, quindi immagina un file PDF come output di destinazione. I report mescoleranno tabelle e grafici (principalmente grafici sparkline e bullet creati con ggplot2). Pensa a dashboard stile Stephen Few / Perceptual Edge, come: …

17 r visualization

2

Raccomandare film con funzionalità aggiuntive utilizzando il filtro collaborativo

Sto cercando di creare un sistema di raccomandazioni utilizzando il filtro collaborativo. Ho le solite [user, movie, rating]informazioni. Vorrei incorporare una funzionalità aggiuntiva come "lingua" o "durata del film". Non sono sicuro di quali tecniche potrei usare per un tale problema. Si prega di suggerire riferimenti o pacchetti in python …

16 python r recommender-system

5

ingrandisci la mappa di calore dei nati marini

Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Come prevedere le probabilità in xgboost?

La seguente funzione di previsione fornisce anche -ve valori, quindi non può essere una probabilità. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Ho cercato su google pred_s <- predict(bst, x_mat_s2,type="response") ma non ha …

16 machine-learning r predictive-modeling decision-trees

4

Panda è ora più veloce di data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping I benchmark data.table non sono stati aggiornati dal 2014. Ho sentito da qualche parte che Pandasora è più veloce di data.table. È vero? Qualcuno ha fatto dei benchmark? Non ho mai usato Python prima, ma prenderei in considerazione il passaggio se pandasposso battere data.table?

16 python r pandas data data.table

Domande taggate «r»