Ho appena iniziato a sviluppare un'applicazione di apprendimento automatico per scopi accademici. Attualmente sto usando R e mi sto allenando. Tuttavia, in molti posti, ho visto persone che usano Python . Cosa usano le persone nel mondo accademico e nell'industria e qual è la raccomandazione?
Sto costruendo un modello di regressione e devo calcolare il seguito per verificare le correlazioni Correlazione tra 2 variabili categoriali multilivello Correlazione tra una variabile categoriale multilivello e una variabile continua VIF (fattore di inflazione di varianza) per variabili categoriali multilivello Credo che sia sbagliato usare il coefficiente di correlazione …
R ha molte librerie che si rivolgono all'analisi dei dati (ad esempio JAGS, BUGS, ARULES ecc.), Ed è menzionata in libri di testo popolari come: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Apprendimento automatico con R". Ho visto una linea guida di 5 TB per un set di dati da considerare …
Uso RStudio per la programmazione R. Ricordo i solidi IDE di altri stack tecnologici, come Visual Studio o Eclipse. Ho due domande: Quali altri IDE oltre a RStudio sono utilizzati (si prega di considerare di fornire una breve descrizione su di essi). Qualcuno di loro ha notevoli vantaggi rispetto a …
Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
XGBoost ha fatto un ottimo lavoro, quando si tratta di gestire variabili dipendenti sia categoriche che continue. Ma come posso selezionare i parametri ottimizzati per un problema XGBoost? Ecco come ho applicato i parametri per un recente problema di Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta …
Poiché ci sono numerosi strumenti disponibili per le attività di data science, è complicato installare tutto e creare un sistema perfetto. Esiste un'immagine Linux / Mac OS con Python, R e altri strumenti di data science open source installati e disponibili per l'uso immediato? Un Ubuntu o un sistema operativo …
Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.
Devo generare rapporti periodici (giornalieri, mensili) sul dashboard di analisi web. Saranno statici e non richiedono interazione, quindi immagina un file PDF come output di destinazione. I report mescoleranno tabelle e grafici (principalmente grafici sparkline e bullet creati con ggplot2). Pensa a dashboard stile Stephen Few / Perceptual Edge, come: …
Sto cercando di creare un sistema di raccomandazioni utilizzando il filtro collaborativo. Ho le solite [user, movie, rating]informazioni. Vorrei incorporare una funzionalità aggiuntiva come "lingua" o "durata del film". Non sono sicuro di quali tecniche potrei usare per un tale problema. Si prega di suggerire riferimenti o pacchetti in python …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
La seguente funzione di previsione fornisce anche -ve valori, quindi non può essere una probabilità. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Ho cercato su google pred_s <- predict(bst, x_mat_s2,type="response") ma non ha …
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping I benchmark data.table non sono stati aggiornati dal 2014. Ho sentito da qualche parte che Pandasora è più veloce di data.table. È vero? Qualcuno ha fatto dei benchmark? Non ho mai usato Python prima, ma prenderei in considerazione il passaggio se pandasposso battere data.table?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.