Vorrei prima chiarire che sto iniziando il mio viaggio nella scienza dei dati dal punto di vista del programmatore e dello sviluppatore di database. Non sono un esperto di scienza dei dati di 10 anni né un dio statistico. Tuttavia, lavoro scienziato di dati e set di dati di grandi dimensioni per un'azienda che lavora con clienti piuttosto grandi in tutto il mondo.
In base alla mia esperienza, il data scientist utilizza gli strumenti di cui ha bisogno per svolgere il proprio lavoro. Excel, R, SAS, Python e altri sono tutti strumenti in una cassetta degli attrezzi per un buon scienziato di dati. I migliori possono utilizzare un'ampia varietà di strumenti per analizzare e sgretolare i dati.
Pertanto, se ti trovi a confrontare R con Python, probabilmente stai sbagliando tutto nel mondo della scienza dei dati. Un buon scienziato di dati usa entrambi quando ha senso usare l'uno sull'altro. Questo vale anche per Excel.
Penso che sia piuttosto difficile trovare qualcuno che abbia esperienza in così tanti strumenti e linguaggi diversi pur essendo bravo in tutto. Penso anche che sarà difficile trovare nello specifico uno scienziato di dati che non solo possa programmare algoritmi complessi ma anche sapere come usarli anche dal punto di vista statistico.
La maggior parte del data scientist con cui ho lavorato arriva in circa 2 versioni. Quelli che possono programmare e quelli che non possono. Lavoro raramente con il data scientist che può estrarre i dati in Python, manipolarli con qualcosa come Pandas, adattare un modello ai dati in R e quindi presentarli al management alla fine della settimana.
Voglio dire, so che esistono. Ho letto molti blog sulla scienza dei dati di ragazzi che sviluppano web scrapper, lo inseriscono in Hadoop, lo ritraggono in Python, programmano cose complesse e lo eseguono tramite R all'avvio. Loro esistono. Sono là fuori. Non ne ho mai incontrati troppi che possono fare tutto questo. Forse è solo la mia zona però?
Quindi, significa solo specializzarsi in una cosa cattiva? No. Molti miei amici si specializzano in una sola lingua principale e la uccidono. Conosco un sacco di dati, ragazzi che conoscono solo R e lo uccidono. Conosco anche un sacco di persone che usano Excel per analizzare i dati perché è l'unica cosa che la maggior parte degli scienziati non dati può aprire e utilizzare (specialmente nelle aziende B2B). La domanda a cui devi veramente rispondere è se questa cosa è l'unica cosa di cui hai bisogno per questa posizione? E, soprattutto, possono imparare cose nuove?
PS
Data Science non è solo limitato a "BIG DATA" o NoSQL.