Sono un R
programmatore di lingue. Sono anche nel gruppo di persone che sono considerate Data Scientist ma che provengono da discipline accademiche diverse dalla CS.
Questo funziona bene nel mio ruolo di Data Scientist, tuttavia, iniziando la mia carriera R
e avendo solo una conoscenza di base di altri linguaggi di scripting / web, mi sono sentito in qualche modo inadeguato in 2 aree chiave:
- Mancanza di una solida conoscenza della teoria della programmazione.
- Mancanza di un livello competitivo di competenza in linguaggi più veloci e ampiamente utilizzati come
C
,C++
eJava
, che potrebbero essere utilizzati per aumentare la velocità della pipeline e dei calcoli dei Big Data, nonché per creare prodotti DS / dati che possono essere più rapidamente sviluppati in modo rapido script back-end o applicazioni autonome.
La soluzione è semplice: vai alla conoscenza della programmazione, che è quello che ho fatto iscrivendomi ad alcune lezioni (attualmente in programmazione C).
Tuttavia, ora che sto iniziando a risolvere i problemi n. 1 e n. 2 sopra, mi sono lasciato chiedermi " Quanto sono praticabili le lingue C
e C++
per Data Science? ".
Ad esempio, posso spostare i dati molto rapidamente e interagire bene con gli utenti, ma per quanto riguarda la regressione avanzata, l'apprendimento automatico, l'estrazione del testo e altre operazioni statistiche più avanzate?
Così. può C
fare il lavoro: quali strumenti sono disponibili per statistiche avanzate, ML, AI e altre aree di Data Science? O devo perdere gran parte dell'efficienza ottenuta programmando C
invocando R
script o altre lingue?
La migliore risorsa che ho trovato finora in C è una libreria chiamata Shark , che offre C
/ C++
la possibilità di usare Support Vector Machines, regressione lineare (non lineare e altre regressioni avanzate come probit multinomiale, ecc.) E una lista di altre (grandi ma) funzioni statistiche.