Che cos'è uno scienziato di dati?


181

Dopo essermi laureato di recente in dottorato in statistica, negli ultimi mesi ho iniziato a cercare lavoro nel campo statistico. Quasi tutte le aziende che ho considerato avevano un annuncio di lavoro con il titolo di " Data Scientist ". In effetti, sembrava che fossero passati i tempi in cui vedevo titoli di lavoro di Statistical Scientist o Statistician . Essere uno scienziato di dati aveva davvero sostituito ciò che era uno statistico o erano i titoli che mi chiedevo?

Bene, la maggior parte delle qualifiche per i lavori sembravano cose che si sarebbero qualificate sotto il titolo di statistico. La maggior parte dei lavori desiderava un dottorato di ricerca in statistica ( ), comprensione sperimentale più richiesta ( segno di ), regressione lineare e anova ( segno di ), modelli lineari generalizzati ( segno di ) e altri metodi multivariati come PCA ( ) , nonché le conoscenze in un ambiente di calcolo statistico come R o SAS ( ). Sembra che uno scienziato di dati sia in realtà solo un nome in codice per statistico.

Tuttavia, ogni intervista a cui sono andato ha iniziato con la domanda: "Quindi hai familiarità con gli algoritmi di apprendimento automatico?" Il più delle volte, mi sono ritrovato a dover provare a rispondere a domande su big data, elaborazione ad alte prestazioni e argomenti su reti neurali, CART, macchine vettoriali di supporto, potenziamento di alberi, modelli non supervisionati, ecc. Certo, mi sono convinto che fossero tutti domande statistiche a cuore, ma alla fine di ogni intervista non ho potuto fare a meno di lasciare la sensazione di sapere sempre meno cosa sia uno scienziato di dati.

Sono uno statistico, ma sono uno scienziato di dati? Lavoro su problemi scientifici, quindi devo essere uno scienziato! E anche io lavoro con i dati, quindi devo essere uno scienziato di dati! E secondo Wikipedia, la maggior parte degli accademici sarebbe d'accordo con me ( https://en.wikipedia.org/wiki/Data_science , ecc.)

Sebbene l'uso del termine "scienza dei dati" sia esploso negli ambienti aziendali, molti accademici e giornalisti non vedono alcuna distinzione tra scienza dei dati e statistica.

Ma se sto partecipando a tutte queste interviste di lavoro per una posizione di data scientist, perché mi sembra che non mi facciano mai domande statistiche?

Bene, dopo la mia ultima intervista, volevo che qualsiasi bravo scienziato lo facesse e ho cercato dati per risolvere questo problema (ehi, dopo tutto sono uno scienziato di dati). Tuttavia, dopo molte innumerevoli ricerche di Google in seguito, sono finito proprio dove ho iniziato a sentirmi di nuovo alle prese con la definizione di cosa fosse uno scienziato di dati. Non sapevo cosa fosse esattamente un data scientist dato che c'erano così tante definizioni, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) ma sembrava che tutti mi dicessero che volevo essere uno:

Bene, alla fine della giornata, quello che ho capito era "cos'è uno scienziato di dati" è una domanda molto difficile a cui rispondere. Cavolo, ci sono stati due interi mesi ad Amstat dove hanno dedicato del tempo a cercare di rispondere a questa domanda:

Bene, per ora, devo essere uno statistico sexy per essere uno scienziato di dati, ma spero che la comunità validata in modo incrociato possa essere in grado di far luce e aiutarmi a capire cosa significhi essere uno scienziato di dati. Non tutti gli esperti di dati statistici?


(Edit / Update)

Ho pensato che questo potesse rendere più piccante la conversazione. Ho appena ricevuto un'e-mail dall'American Statistical Association su un lavoro in corso con Microsoft alla ricerca di un Data Scientist. Ecco il link: Data Scientist Position . Penso che questo sia interessante perché il ruolo della posizione colpisce molti tratti specifici di cui abbiamo parlato, ma penso che molti di loro richiedano un background molto rigoroso nelle statistiche, oltre a contraddire molte delle risposte postate di seguito. Nel caso in cui il collegamento si interrompa, ecco le qualità che Microsoft cerca in uno scienziato di dati:

Requisiti e competenze professionali principali:

Esperienza nel dominio aziendale utilizzando Analytics

  • Deve avere esperienza in diversi settori aziendali rilevanti nell'utilizzo di capacità di pensiero critico per concettualizzare problemi aziendali complessi e le loro soluzioni utilizzando analisi avanzate in set di dati aziendali reali su larga scala
  • Il candidato deve essere in grado di gestire autonomamente progetti analitici e aiutare i nostri clienti interni a comprendere i risultati e tradurli in azioni a beneficio della loro attività.

Modellazione predittiva

  • Esperienza in tutti i settori nella modellazione predittiva
  • Definizione dei problemi aziendali e modellazione concettuale con il cliente per suscitare relazioni importanti e definire l'ambito del sistema

Statistiche / Econometria

  • Analisi dei dati esplorativi per dati continui e categorici
  • Specifica e stima delle equazioni del modello strutturale per comportamento di impresa e consumatore, costo di produzione, domanda di fattore, scelta discreta e altre relazioni tecnologiche secondo necessità
  • Tecniche statistiche avanzate per analizzare dati continui e categorici
  • Analisi delle serie storiche e implementazione di modelli previsionali
  • Conoscenza ed esperienza nel lavorare con problemi con più variabili
  • Capacità di valutare la correttezza del modello e condurre test diagnostici
  • Capacità di interpretare statistiche o modelli economici
  • Conoscenza ed esperienza nella costruzione di simulazione di eventi discreti e modelli di simulazione dinamica

Gestione dei dati

  • Familiarità con l'uso di T-SQL e analisi per la trasformazione dei dati e l'applicazione di tecniche esplorative di analisi dei dati per insiemi di dati del mondo reale molto grandi
  • Attenzione all'integrità dei dati tra cui ridondanza dei dati, accuratezza dei dati, valori anomali o estremi, interazioni dei dati e valori mancanti.

Abilità comunicative e di collaborazione

  • Lavorare in modo indipendente e in grado di lavorare con un team di progetto virtuale che ricercherà soluzioni innovative per risolvere problemi aziendali
  • Collabora con i partner, applica capacità di pensiero critico e promuovi progetti analitici end-to-end
  • Abilità comunicative superiori, sia verbali che scritte
  • Visualizzazione dei risultati analitici in una forma che può essere consumata da una serie diversificata di parti interessate

Pacchetti software

  • Pacchetti software statistici / econometrici avanzati: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Esplorazione, visualizzazione e gestione dei dati: T-SQL, Excel, PowerBI e strumenti equivalenti

Titoli di studio:

  • Sono richiesti almeno 5 anni di esperienza
  • La laurea specialistica in ambito quantitativo è auspicabile.

6
Bella domanda! Mi sono chiesto molto su questo ultimamente. Ai miei occhi sembra che i lavori che includono lo scienziato dei dati nella descrizione siano alla ricerca di persone in grado di applicare metodi statistici / ML che si adattino bene, non necessariamente di persone in grado di affrontare la teoria. Penso ancora che ci sia un po 'di ridondanza in queste descrizioni delle mansioni. La richiesta di un dottorato di ricerca è spesso una sovraqualificazione e le persone che fanno queste descrizioni delle mansioni sono fortemente influenzate dal ronzio dei big-data. Uno scienziato di dati è uno statistico o viceversa è la domanda principale a cui voglio vedere una risposta.
Gumeo,

4
Penso che questo sia un eccellente documento che in qualche modo affronta questo cambiamento nelle culture di essere uno statistico anziché essere uno scienziato di dati: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"Ma se sto partecipando a tutte queste interviste di lavoro per una posizione di data scientist, perché mi sembra che non mi facciano mai domande statistiche" ... storia della mia vita ... letteralmente LOL !!! Penso che scienza dei dati, statistica, econometria, biostat, ecc. hanno una notevole sovrapposizione ma usano tutti un gergo diverso che rende difficile la comunicazione (specialmente quando vieni intervistato da una persona delle risorse umane che non è ben informata e si concentra sulle parole chiave). Speriamo che un aumento degli sforzi interdisciplinari e una necessaria apertura mentale cambieranno questo aspetto in futuro.
Zachary Blumenfeld,

9
Ho seguito la "crescita dello scienziato dei dati" da quando è diventato mainstream nel 2008. Per me è stato ed è principalmente un termine di marketing che alimenta un clamore: le discipline disciplinari, l'apprendimento automatico, l'ingegneria dei dati, l'analisi dei dati sono tutti i lo stesso con enfasi diversa. Parafrasando G. Box: se si pongono domande come "Sei un bayesiano, frequentista, analista di dati, progettista di esperimenti, scienziato di dati?" Dì di si".
Momo,

10
@Momo: Tuttavia, se si apre uno dei libri di testo di oltre 600 pagine chiamati "Apprendimento automatico" (o simile) e uno dei libri di testo chiamato "Statistica" (o simile), si avranno pochissime sovrapposizioni. Il riconoscimento del modello del mio vescovo e il machine learning o il machine learning di Murphy hanno quasi zero intersezione con la teoria della stima dei punti di Lehman e Casella , l' inferenza statistica di Casella e Berger o Maxwell e Delaney che progettano esperimenti e analizzano i dati . Sono così diversi che penso che le persone che hanno familiarità con una serie di libri possano avere difficoltà a leggere l'altra.
amoeba,

Risposte:


52

Ci sono alcune definizioni umoristiche che non sono state ancora fornite:

Data Scientist: qualcuno che fa statistiche su un Mac.

Mi piace questo, dato che gioca bene sull'angolo più hype-che-sostanza.

Data Scientist: uno statistico che vive a San Francisco.

Allo stesso modo, questo riff sulla West Coast ha il sapore di tutto questo.

Personalmente, trovo la discussione (in generale, e qui) piuttosto noiosa e ripetitiva. Quando pensavo a ciò che volevo --- forse un quarto di secolo o più fa --- mi rivolgevo a un analista quantitativo. Questo è ancora ciò che faccio (e amo!) E per lo più si sovrappone e copre ciò che è stato dato qui in varie risposte.

(Nota: esiste una fonte più vecchia per la citazione due, ma non riesco a trovarla in questo momento.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitivee inutile parlare di sciocchezze o nuove parole ronzanti, aggiungerei. Non riesco ancora a distinguere in seguito tra data scientist, scienziati cristiani e data scientologist.
ttnphns,

1
LOL @ data scientologist.
dsaxton,

4
E consiglio il mio cappello alla persona ( molto anonima) molto seria che è appena arrivata, ha votato in downgrade e non ha lasciato alcun motivo. Suggerimento: non è così che migliora la discussione.
Dirk Eddelbuettel,

1
Essendo uno statistico a South San Francisco che sta combattendo molto attivamente il titolo Data Scientist, la seconda definizione colpisce troppo vicino a casa (ma non ero il downvoter).
Cliff AB,

1
(+1) @CliffAB Sono in realtà anche uno statistico a South San Francisco.
RustyStatistician,

87

Le persone definiscono la scienza dei dati in modo diverso, ma penso che la parte comune sia:

  • conoscenza pratica di come trattare i dati,
  • capacità pratiche di programmazione.

Contrariamente al suo nome, raramente è "scienza". Cioè, nella scienza dei dati l'enfasi è sui risultati pratici (come in ingegneria), non sulle prove, sulla purezza matematica o sul rigore caratteristici della scienza accademica. Le cose devono funzionare e c'è poca differenza se si basa su un documento accademico, sull'uso di una biblioteca esistente, sul proprio codice o su un hack improvvisato.

Lo statistico non è necessario un programmatore (può usare carta e penna e un software dedicato). Inoltre, alcune chiamate di lavoro nella scienza dei dati non hanno nulla a che fare con le statistiche. Ad esempio, si tratta di ingegneria dei dati come l'elaborazione di big data, anche se la matematica più avanzata potrebbe essere calcolata media (personalmente non definirei questa attività "scienza dei dati", però). Inoltre, la "scienza dei dati" è pubblicizzata, quindi i lavori tangenzialmente correlati usano questo titolo - per attirare i candidati o aumentare l'ego degli attuali lavoratori.

Mi piace la tassonomia della risposta di Michael Hochster su Quora :

Scienziato dei dati di tipo A: A è per l'analisi. Questo tipo si occupa principalmente di dare un senso ai dati o di lavorarci in modo abbastanza statico. Lo scienziato di dati di tipo A è molto simile a uno statistico (e può essere uno) ma conosce tutti i dettagli pratici sull'utilizzo dei dati che non sono insegnati nel curriculum statistico: pulizia dei dati, metodi per gestire set di dati molto grandi, visualizzazione , profonda conoscenza di un determinato dominio, scrivere bene sui dati e così via.

Scienziato dei dati di tipo B: la B è per l'edilizia. Dati di tipo B Gli scienziati condividono un background statistico con il tipo A, ma sono anche programmatori molto potenti e possono essere ingegneri del software addestrati. Lo scienziato di dati di tipo B è principalmente interessato a utilizzare i dati "in produzione". Costruiscono modelli che interagiscono con gli utenti, spesso offrendo consigli (prodotti, persone che potresti conoscere, pubblicità, film, risultati di ricerca).

In tal senso, lo scienziato di dati di tipo A è uno statistico che può programmare. Ma, anche per quanto riguarda la parte quantitativa, potrebbero esserci persone con un background più nell'informatica (ad es. Apprendimento automatico) rispetto alle statistiche regolari, o quelle che si concentrano ad es. Sulla visualizzazione dei dati.

E il diagramma di Data Science Venn (qui: hacking ~ programmazione):

Il diagramma di Data Science Venn

vedi anche diagrammi di Venn alternativi ( questo e quello ). O anche un tweet , mentre divertente, che mostra un elenco equilibrato di abilità e attività tipiche di uno scienziato di dati:

uno scienziato di dati dovrebbe essere in grado di farlo

Vedi anche questo post: Data scientist - statistico, programmatore, consulente e visualizzatore? .


14
Mi piace il tweet. Aggiungo che dovrebbe anche sapere come cuocere la pizza, coltivare le proprie verdure ecologiche, scrivere poesie e ballare la salsa :)
Tim

3
Piccoli cavilli: non tutte le "scienze" hanno enfasi su "prove o purezza matematica". Pensa ad esempio alla biologia.
amoeba,

2
Cosa significa hackerare un valore p? Mi sembra che qualcuno (alias il cliente) abbia un target di valore p specificato e che lo scienziato dei dati dovrebbe tagliare e tagliare i dati in modo da poter raggiungere l'obiettivo di valore p. O dovrebbe significare qualcosa di diverso?
emory

2
@amory Questo tweet è umoristico (è un testo di un paragrafo di en.wikiquote.org/wiki/Time_Enough_for_Love , "Un essere umano dovrebbe essere in grado di [elencare]. La specializzazione è per gli insetti."). "Hack a p-value" è certamente una pratica oscura (purtroppo prevalente in alcune discipline accademiche), e (spero) è qui come uno scherzo.
Piotr Migdal,

4
+1 per l'osservazione di non chiamare qualcuno un Data Scientist che calcola "statistiche" semplicistiche su enormi set di dati. Penso che stiamo uscendo da una fase di Data Science in cui gli informatici specializzati in cluster computing (Hadoop, ecc.) Sono stati etichettati "Data Scientists". Non sto guardando in basso su quelle abilità, ma non sono così importanti come le capacità statistiche / di ragionamento / investigazione e la tecnologia sta andando oltre la riduzione delle mappe.
Wayne,

42

Esistono numerosi sondaggi nel campo della scienza dei dati. Mi piace questo , perché tenta di analizzare i profili delle persone che svolgono effettivamente lavori di data science. Invece di usare prove aneddotiche o pregiudizi dell'autore, usano tecniche di data science per analizzare il DNA di data scientist.

È abbastanza rivelatore osservare le competenze elencate dai data scientist. Si noti che le 20 principali abilità contengono molte competenze IT.

Nel mondo di oggi, uno scienziato di dati dovrebbe essere un tuttofare; un autodidatta che ha solide basi quantitative, attitudine alla programmazione, infinita curiosità intellettuale e grandi capacità comunicative.

inserisci qui la descrizione dell'immagine

AGGIORNARE:

Sono uno statistico, ma sono uno scienziato di dati? Lavoro su problemi scientifici, quindi devo essere uno scienziato!

Se fai il dottorato, molto probabilmente sei già uno scienziato, soprattutto se hai pubblicato articoli e ricerche attive. Tuttavia, non è necessario essere uno scienziato per essere uno scienziato di dati. Ci sono alcuni ruoli in alcune aziende, come Walmart (vedi sotto), dove è richiesto il dottorato, ma di solito i data scientist hanno gradi BS e MS, come puoi vedere dagli esempi seguenti.

Come puoi immaginare dal grafico sopra, molto probabilmente, ti verrà richiesto di avere buone capacità di programmazione e gestione dei dati. Inoltre, spesso la scienza dei dati è associata ad un certo livello, spesso "profondo", di esperienza nell'apprendimento automatico. Puoi sicuramente definirti un esperto di dati se hai un dottorato di ricerca in statistica. Tuttavia, il dottorato di ricerca in informatica delle migliori scuole potrebbe essere più competitivo rispetto ai laureati in statistica, perché potrebbero avere una conoscenza statistica applicata piuttosto forte che è integrata da forti capacità di programmazione - una combinazione ricercata dai datori di lavoro. Per contrastarli devi acquisire forti capacità di programmazione, quindi in un equilibrio sarai molto competitivo. La cosa interessante è che di solito tutti i dottorati di statistica avranno qualche esperienza di programmazione, ma nella scienza dei dati spesso il requisito è molto più elevato di quello,

Per me il vantaggio di avere un dottorato in statistica è nel problema catturato nel resto della frase "un tuttofare" che di solito viene abbandonato: "un maestro di nessuno". È bello avere persone che sanno un po 'di tutto, ma cerco sempre persone che conoscano qualcosa di profondamente, sia che si tratti di statistiche o di informatica non è così importante. Ciò che conta è che il ragazzo è in grado di arrivare in fondo, è una qualità utile quando ne hai bisogno.

Il sondaggio elenca anche i principali datori di lavoro di data scientist. Microsoft è in cima, a quanto pare, il che è stato sorprendente per me. Se vuoi avere un'idea migliore di ciò che stanno cercando, è utile cercare LinkeIn con "data science" nella sezione Lavori. Di seguito sono riportati due estratti dai lavori di MS e Walmart a LinkedIn per fare un punto.

  • Microsoft Data Scientist

    • Oltre 5 anni di esperienza nello sviluppo di software nella costruzione di sistemi / servizi di elaborazione dati
    • Lauree o qualifiche superiori in Informatica, EE o Matematica con specializzazione in Statistica, Data mining o Machine Learning.
    • Eccellenti capacità di programmazione (C #, Java, Python, ecc.) Nella manipolazione di dati su larga scala
    • Conoscenza operativa di Hadoop o altra tecnologia di elaborazione dei Big Data
    • La conoscenza dei prodotti di analisi (ad es. R, SQL AS, SAS, Mahout, ecc.) È un vantaggio.

Si noti come la conoscenza dei pacchetti stat sia solo un vantaggio, ma sono richieste eccellenti capacità di programmazione in Java.

  • Walmart, Data Scientist

    • Dottorato di ricerca in informatica o campo simile o SM con almeno 2-5 anni di esperienza correlata
    • Buone capacità di codifica funzionale in C ++ o Java (Java è altamente preferito)
    • deve essere in grado di trascorrere fino al 10% della giornata lavorativa giornaliera scrivendo il codice di produzione in C ++ / Java / Hadoop / Hive
    • Conoscenza a livello di esperto di uno dei linguaggi di scripting come Python o Perl.
    • Esperienza di lavoro con set di dati di grandi dimensioni e strumenti di elaborazione distribuiti un vantaggio (Mappa / Riduzione, Hadoop, Hive, Spark ecc.)

Qui è preferito il dottorato di ricerca, ma viene nominato solo il maggiore in informatica. Il calcolo distribuito con Hadoop o Spark è probabilmente un'abilità insolita per uno statistico, ma alcuni fisici teorici e matematici applicati usano strumenti simili.

AGGIORNAMENTO 2:

"È già tempo di uccidere il titolo di" Data Scientist "", afferma Thomas Davenport, autore nel 2012 dell'articolo di Harvard Business Review intitolato "Data Scientist: The Sexiest Job of the 21st Century" che ha dato il via alla mania dei data scientist:

Cosa significa oggi dire che sei — o vuoi essere, o vuoi assumere — uno “scienziato dei dati?” Non molto, sfortunatamente.


3
+1 per l'utilizzo dei dati e il collegamento a un bel report basato sui dati. Ma lo screenshot richiede un'interfaccia del browser Web?
Piotr Migdal,

@PiotrMigdal, dovrei imparare a ritagliare o smettere di essere pigro
Aksakal,

4
L'ho ritagliato per te.
amoeba,

1
Sono tentato di sottovalutare dopo l'aggiornamento di oggi: questo thread è già molto impegnato e avere una gigantesca parete di citazioni da scorrere verso il basso non è molto utile secondo me ... Forse i collegamenti + un breve riassunto potrebbero essere sufficienti?
amoeba,

1
@amoeba, ho eliminato l'elenco. È un bel commento
Aksakal,

39

Da qualche parte ho letto questo (EDIT: Josh Will sta spiegando il suo tweet ):

Il data scientist è una persona che è più brava in statistica di qualsiasi programmatore e in programmazione rispetto a qualsiasi statistico.

Questa citazione può essere brevemente spiegata da questo processo di analisi scientifica dei dati . La prima occhiata a questo schema sembra "beh, dov'è la parte di programmazione?", Ma se hai tonnellate di dati devi essere in grado di elaborarli.


11
Quindi probabilmente ogni collaboratore di R che è uno statistico è uno scienziato di dati? ;)
Tim

15
Wow, stavo solo passeggiando sul sito, chiedendomi questa domanda (dato che c'è la datascience ) e poi di passaggio apprendi che ho una frigginosa pagina di Wikipedia ? Questa è stata una novità per me ... E per quello che vale mi sono allenato in Econometria, non in statistica, ma ho lavorato come 'quant' per oltre 20 anni. Questo è effettivamente lo stesso della scienza dei dati ...
Dirk Eddelbuettel,

3
-1. Non decido di votare perché non mi piace la citazione (era probabilmente la lingua nella guancia), ma perché la risposta è troppo breve e priva di sostanza, in particolare rispetto a molte altre risposte qui. Vorrei suggerire che viene convertito in un commento, a meno che forse non lo si espanda in qualche modo.
amoeba,

3
Ecco una spiegazione di questa citazione del suo autore Josh Wills . I primi tre paragrafi dopo la citazione sono abbastanza pertinenti a questa discussione.
amoeba,

3
@amoeba: l'articolo di Josh Wills mi è piaciuto fino a questo punto: "Sospetto che insegniamo alle persone statistiche avanzate in un modo che spaventa gli scienziati informatici concentrandosi su modelli parametrici che richiedono molti calcoli anziché modelli non parametrici che sono principalmente computazionali ". Inoltre, non sono d'accordo con lui sul fatto che sia più facile insegnare statistiche avanzate alle persone CS che come programmare bene agli statistici (anche se sono certamente d'accordo sul fatto che la maggior parte degli statistici sono programmatori terribili).
Cliff AB,

15

Ho scritto diverse risposte e ogni volta che sono diventate lunghe e alla fine ho deciso che mi sarei alzato su una soapbox. Ma penso che questa conversazione non abbia esplorato completamente due fattori importanti:

  1. La scienza nella scienza dei dati. Un approccio scientifico è quello in cui si tenta di distruggere i propri modelli, teorie, caratteristiche, scelte tecniche, ecc. E solo quando non è possibile farlo si accetta che i risultati possano essere utili. È una mentalità e molti dei migliori data scientist che ho incontrato hanno un background scientifico (chimica, biologia, ingegneria).

  2. La scienza dei dati è un campo ampio. Un buon risultato di Data Science di solito coinvolge un piccolo team di Data Scientist, ognuno con la propria specialità. Ad esempio, un membro del team è più rigoroso e statistico, un altro è un programmatore migliore con un background ingegneristico e un altro è un forte consulente con esperienza di business. Tutti e tre sono pronti ad apprendere l'argomento e tutti e tre sono curiosi e vogliono trovare la verità - per quanto dolorosa - e fare ciò che è nel miglior interesse del cliente (interno o esterno), anche se il cliente non lo fa capisco.

La moda degli ultimi anni - che ora sta svanendo, credo - è quella di reclutare scienziati informatici che hanno padroneggiato le tecnologie dei cluster (ecosistema Hadoop, ecc.) E dicono che è il Data Scientist ideale. Penso che sia ciò che l'OP ha incontrato e consiglierei all'OP di spingere i suoi punti di forza nel rigore, nella correttezza e nel pensiero scientifico.


@RustyStatistician: Prego. Aggiungerei che la consulenza per cui lavoro ha dottorati di ricerca (ingegneria, biologia, astronomia, informatica), ma in generale considera i diplomi di laurea specialistica - spesso persone con esperienza lavorativa che tornano per una laurea in analisi - come punto debole . Detto questo, sono grato ogni giorno per il mio collega di dottorato in biologia che è attualmente in un progetto in cui sono il capo della tecnologia. Insieme al capo del progetto che ha un background economico (e un MS in Analytics), siamo un team eccezionale! (La mia SM è in Intelligenza Artificiale.)
Wayne,

+1, ma mi chiedo il tuo primo punto elenco che dice che la [buona] scienza dei dati è una scienza. In tal caso, è un termine curioso e forse fuorviante (?) Perché "scienza dei dati" non sta studiando i "dati" in sé; sta usando i dati per studiare qualcos'altro, qualunque cosa sia interessante in una data applicazione. Al contrario, ad esempio, "la scienza politica" dovrebbe studiare la politica e la "neuroscienza" sta studiando i neuroni, come suggeriscono i nomi.
amoeba,

1
@amoeba: In realtà, intendevo dire che uno scienziato di dati deve usare il metodo scientifico di Richard Feynman come parte del modo in cui comprende e usa i dati. (Come dici tu, nel perseguimento di una particolare applicazione.) È la parte statistica del lavoro: "Questa variabile sembra molto significativa - è una perdita dal futuro?" Oppure "Questo modello sembra essere ragionevole, ma eseguiamo CV sull'intero processo di creazione del modello, e poi facciamo un altro ricampionamento su quello." Sta cercando di confutare il tuo modello / teoria e coinvolgere gli altri nel farlo. Non accettare "Green M & Ms cause cancer".
Wayne,

@Wayne è l'unico che ha citato il "metodo scientifico" finora. Questo è così triste.
jgomo3,

È necessaria una comprensione della fisica, in particolare delle unità, per chiunque cerchi di dare un senso a qualcosa. Tuttavia, in questo nostro nuovo coraggioso mondo è spesso sufficiente fare osservazioni euristiche che hanno un valore predittivo subottimale come "gob-stopper", ma non sono soluzioni reali.
Carl,

14

Penso che Bitwise copra la maggior parte della mia risposta, ma aggiungerò il mio 2c.

No, mi dispiace ma uno statistico non è uno scienziato di dati, almeno in base a come la maggior parte delle aziende definisce il ruolo oggi. Nota che la definizione è cambiata nel tempo e una sfida dei professionisti è assicurarsi che rimangano pertinenti.

Condividerò alcuni motivi comuni per cui rifiutiamo i candidati per ruoli di "Data Scientist":

  • Aspettative sull'ambito del lavoro. In genere il DS deve essere in grado di lavorare in modo indipendente. Ciò significa che non c'è nessun altro a creare il set di dati per lui al fine di risolvere il problema che gli è stato assegnato. Quindi, deve essere in grado di trovare le origini dati, interrogarle, modellare una soluzione e quindi, spesso, anche creare un prototipo che risolva il problema. Molte volte è semplicemente la creazione di una dashboard, un allarme o un rapporto in tempo reale che si aggiorna costantemente.
  • Comunicazione . Sembra che molti statistici abbiano difficoltà a "semplificare" e "vendere" le proprie idee agli uomini d'affari. Puoi mostrare solo un grafico e raccontare una storia dai dati in modo che tutti nella stanza possano capirla? Si noti che questo è dopo aver verificato che è possibile difendere ogni bit dell'analisi se contestato.
  • Abilità di codifica . Non abbiamo bisogno di competenze di codifica a livello di produzione, dal momento che abbiamo sviluppatori per questo, tuttavia, abbiamo bisogno che lei sia in grado di scrivere un prototipo e distribuirlo come servizio web in un'istanza di AWS EC2. Quindi, le abilità di programmazione non significano capacità di scrivere script R. Posso aggiungere fluidità in Linux da qualche parte qui probabilmente. Quindi, la barra è semplicemente superiore a ciò che la maggior parte degli statistici tende a credere.
  • SQL e database . No, non può prenderlo sul posto di lavoro, dal momento che in realtà abbiamo bisogno di lui per adattare l'SQL di base che già conosce e imparare come interrogare i diversi sistemi DB che utilizziamo in tutta l'organizzazione tra cui Redshift, HIVE e Presto - ognuno dei che utilizza il proprio sapore di SQL. Inoltre, l'apprendimento di SQL sul posto di lavoro significa che il candidato creerà problemi in ogni altro analista fino a quando non impareranno a scrivere query efficienti.
  • Apprendimento automatico . In genere hanno utilizzato la regressione logistica o poche altre tecniche per risolvere un problema basato su un determinato set di dati (stile Kaggle). Tuttavia, anche se l'intervista parte da algoritmi e metodi, presto si concentra su argomenti come la generazione di funzionalità (ricorda che devi creare il set di dati, non c'è nessun altro per crearlo per te), manutenibilità, scalabilità e prestazioni, nonché i relativi compromessi. Per alcuni contesti è possibile consultare un documento pertinente di Google pubblicato su NIPS 2015.
  • Analisi del testo . Non è un must, ma è buona esperienza avere una certa esperienza nell'elaborazione del linguaggio naturale. Dopotutto, gran parte dei dati è in formato testuale. Come discusso, non c'è nessun altro che possa effettuare le trasformazioni e ripulire il testo per renderlo utilizzabile da un ML o da un altro approccio statistico. Inoltre, nota che oggi anche i laureati CS hanno già fatto un progetto che spunta questa casella.

Naturalmente per un ruolo da junior non puoi avere tutto quanto sopra. Ma quante di queste abilità puoi permetterti di perdere e riprendere il lavoro?

Infine, per chiarire, la ragione più comune per respingere i non statistici è esattamente la mancanza di una conoscenza di base anche delle statistiche. E da qualche parte c'è la differenza tra un ingegnere di dati e uno scienziato di dati. Tuttavia, gli ingegneri di dati tendono ad applicare per questi ruoli, poiché molte volte credono che la "statistica" sia solo la media, la varianza e la distribuzione normale. Quindi, possiamo aggiungere alcune parole d' ordine statistiche pertinenti ma spaventose nelle descrizioni dei lavori al fine di chiarire cosa intendiamo per "statistiche" e prevenire la confusione.


4
Dal 2006 insegno corsi di statistica applicata e analisi dei dati in programmi chiamati "informatica aziendale" in due università e questo vale al 100% per ciò che i miei studenti imparano. 1. Devono raccogliere dati reali, forse disordinati dalla propria attività, dal Web, dal sondaggio, ecc. 2. Pulire, preparare e archiviare i dati in una banca dati SQL per il corso. 3. Effettuare varie analisi statistiche sui dati. 4. Prepara brevi documenti esecutivi di 1-2 pagine e scrivi un rapporto approfondito con una programmazione letterale (knitr o simili). Da quella scienza dei dati emerge l'informatica aziendale con un corso statistico / ML aggiuntivo, no?
Momo,

4
Certo, il tuo corso copre molte delle abilità richieste. Suppongo che possiamo trovare molte combinazioni, ad esempio, la laurea in informatica con alcuni corsi di statistica e una tesi / tirocinio su un problema commerciale basato sulla ML. Alla fine della giornata, ciò che conta è la profondità e l'ampiezza delle abilità pertinenti che il candidato mette sul tavolo.
iliasfl,

11

Mi permetta di ignorare l'hype e le parole d'ordine. Penso che "Data Scientist" (o come vuoi chiamarlo) è una cosa reale e che è distinto da uno statistico. Esistono molti tipi di posizioni che sono effettivamente data scientist ma non hanno questo nome: un esempio sono le persone che lavorano nella genomica.

Per come la vedo io, uno scienziato di dati è qualcuno che ha le capacità e le competenze per progettare ed eseguire ricerche su grandi quantità di dati complessi (ad esempio altamente dimensionali in cui i meccanismi sottostanti sono sconosciuti e complessi).

Questo significa:

  • Programmazione: essere in grado di implementare analisi e pipeline, che spesso richiedono un certo livello di parallelizzazione e interfaccia con database e risorse di elaborazione ad alte prestazioni.
  • Informatica (algoritmi): progettazione / scelta di algoritmi efficienti in modo che l'analisi scelta sia fattibile e il tasso di errore sia controllato. A volte ciò può richiedere anche la conoscenza di analisi numerica, ottimizzazione, ecc.
  • Informatica / statistica (di solito enfasi sull'apprendimento automatico): progettazione e implementazione di un framework per porre domande sui dati o trovare "modelli" in esso. Ciò includerebbe non solo la conoscenza di diversi test / strumenti / algoritmi, ma anche come progettare il giusto controllo, la convalida incrociata e così via.
  • Modellazione: spesso vorremmo essere in grado di produrre alcuni modelli che forniscano una rappresentazione più semplice dei dati in modo tale che possiamo sia fare previsioni utili sia ottenere informazioni sui meccanismi alla base dei dati. I modelli probabilistici sono molto popolari per questo.
  • Competenza specifica per un dominio: un aspetto chiave per lavorare con successo con dati complessi è l'integrazione di informazioni specifiche per il dominio. Quindi direi che è fondamentale che lo scienziato dei dati sia esperto nel dominio, sia in grado di apprendere rapidamente nuovi campi o sia in grado di interfacciarsi bene con esperti del settore in grado di fornire informazioni utili su come affrontare i dati .

6
E chi è uno statistico, secondo te? In che modo questo elenco di competenze è diverso da quello che uno "statistico" dovrebbe avere?
amoeba,

4
@amoeba Potrei sbagliarmi, ma molti statistici non hanno alcune di queste competenze (ad es. programmazione estesa con set di dati di massa, formazione di livello universitario in informatica). Inoltre, alcune abilità statistiche sono irrilevanti per spesso uno scienziato di dati (alcuni di teoria, alcuni sottocampi).
Bitwise,

4
@rocinante: Sono fortemente in disaccordo sul fatto che "programmare con" set di dati di grandi dimensioni "non è in realtà un ostacolo". Non credo di conoscere nessuno con il titolo di "statistico" in grado di implementare software che prende decisioni in tempo reale basate sui pacchetti in arrivo su un server. Certamente non tutti i data scientist potrebbero farlo, ma la percentuale è molto più alta.
Cliff AB,

3
@rocinante è necessaria una buona comprensione delle statistiche ma non è sufficiente a mio avviso. Per quanto riguarda la profondità / difficoltà delle statistiche rispetto ad altre abilità, direi che ottenere una buona comprensione del lato dell'informatica è altrettanto profondo / difficile, se non di più. Inoltre, per quanto riguarda le domande su quella SE, trovi questo tipo di domande su qualsiasi SE (compresa questa) - non significa nulla tranne che alcune persone vogliono soluzioni facili senza capire.
Bitwise,

6
L'unica cosa che diventa stancante in questi dibattiti sulla "scienza dei dati vs. statistica" è la sottile implicazione che i data scientist sono come una razza superiore di statistici. Il fatto è che man mano che l'ampiezza della tua conoscenza aumenta, la profondità diminuisce e delle persone che sono meglio che all'oscuro di tutti i compiti necessari per essere un "scienziato dei dati", immagino che la loro conoscenza della maggior parte di queste cose sia piuttosto superficiale. In generale, è estremamente difficile persino avvicinarsi ad essere esperti in uno dei domini che la gente si aspetta da questi mitici scienziati dei dati.
Dsaxton,

7

Tutte ottime risposte, tuttavia nella mia esperienza di ricerca di lavoro ho notato che il termine "data scientist" è stato confuso con "junior data analyst" nelle menti dei recruiter con cui ero in contatto. Quindi molte persone simpatiche senza esperienza statistica oltre a quel corso introduttivo di un trimestre che hanno fatto un paio di anni fa ora si definiscono data scientist. Come qualcuno che con un background di informatica e anni di esperienza come analista di dati, ho fatto un dottorato di ricerca in Statistica più avanti nella mia carriera pensando che mi avrebbe aiutato a distinguermi dalla massa, mi ritrovo in una folla inaspettatamente grande di "data scientist ". Penso che potrei tornare a "statistico"!


5
Praticamente vedo la stessa cosa. Qualsiasi lavoro che richieda un po 'di lavoro con dati o alcune analisi è chiamato "Data Science". Penso che sia accaduto qualcosa di molto simile a "Quant" in ambito finanziario, in cui chiunque lavorasse con i dati si stava definendo "Quant".
Akavall,

6

Sono un dipendente junior, ma il mio titolo professionale è "data scientist". Penso che la risposta di Bitwise sia una descrizione appropriata di ciò che sono stato assunto per fare, ma vorrei aggiungere un altro punto in base alla mia esperienza quotidiana sul lavoro:

Data ScienceStatistics,
StatisticsData Science.

La scienza è un processo di indagine. Quando i dati sono i mezzi con cui viene effettuata tale indagine, la scienza dei dati sta accadendo. Ciò non significa che tutti coloro che sperimentano o effettuano ricerche sui dati siano necessariamente dei data scientist, allo stesso modo in cui non tutti coloro che sperimentano o effettuano ricerche sui cablaggi sono necessariamente ingegneri elettrici. Ciò significa che si può acquisire una formazione sufficiente per diventare un "investigatore di dati" professionale allo stesso modo in cui si può acquisire una formazione sufficiente per diventare un elettricista professionista. Quell'addestramento comprende più o meno i punti della risposta di Bitwise, di cui le statistiche sono una componente ma non la totalità.

La risposta di Piotr è anche un bel riassunto di tutte le cose che devo fare, vorrei sapere come fare in una determinata settimana. Finora il mio lavoro mi ha aiutato principalmente a annullare il danno arrecato da ex dipendenti che appartenevano al componente "Danger Zone" del diagramma di Venn.


2
+1. Penso che sia molto prezioso in questo thread ascoltare le persone che sono effettivamente impiegate come "data scientist".
ameba,

(+1) @amoeba Sono d'accordo al 100% con il tuo sentimento.
RustyStatistician,

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@caveman Sono assolutamente d'accordo.
RustyStatistician,

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Di recente mi sono anche interessato alla scienza dei dati come una carriera e, quando penso a ciò che ho imparato sul lavoro di scienza dei dati rispetto ai numerosi corsi di statistica che ho seguito (e apprezzato!), Ho iniziato a pensare ai data scientist come informatici che hanno rivolto la loro attenzione ai dati. In particolare, ho notato le seguenti differenze principali. Si noti tuttavia che le differenze sembrano umore. Quanto segue riflette solo le mie impressioni soggettive e non rivendico la generalità. Solo le mie impressioni!

  1. In statistica, ti preoccupi molto delle distribuzioni, delle probabilità e delle procedure inferenziali (come fare test di ipotesi, che sono le distribuzioni sottostanti, ecc.). Da quanto ho capito, la scienza dei dati è molto spesso legata alla previsione e le preoccupazioni per le dichiarazioni inferenziali sono in una certa misura assorbite dalle procedure dell'informatica, come la convalida incrociata.

  2. Nei corsi statistici, spesso ho appena creato i miei dati o usato alcuni dati già pronti disponibili in un formato piuttosto pulito. Ciò significa che è in un bel formato rettangolare, un foglio di calcolo Excel o qualcosa del genere che si adatta perfettamente alla RAM. La pulizia dei dati è sicuramente implicata, ma non ho mai avuto a che fare con l '"estrazione" di dati dal web, per non parlare dei database che dovevano essere configurati per contenere una quantità di dati che non rientrano più nella RAM. La mia impressione è che questo aspetto computazionale sia molto più dominante nella scienza dei dati.

  3. Forse questo riflette la mia ignoranza su ciò che gli statistici fanno nei tipici lavori statistici, ma prima della scienza dei dati non avevo mai pensato di costruire modelli in un prodotto più grande. C'era un'analisi da fare, un problema statistico da risolvere, alcuni parametri da stimare e basta. Nella scienza dei dati sembra che spesso (anche se non sempre) i modelli predittivi siano integrati in qualcosa di più grande. Ad esempio, fai clic da qualche parte e, entro millisecondi, un algoritmo predittivo avrà deciso ciò che viene mostrato come risultato. Quindi, mentre nella statistica, mi sono sempre chiesto "quale parametro possiamo stimare e come lo facciamo elegantemente", sembra che nella scienza dei dati l'attenzione sia più focalizzata su "cosa possiamo prevedere che è potenzialmente utile in un prodotto di dati" .

Ancora una volta, quanto sopra non cerca di dare una definizione generale. Sto solo sottolineando le principali differenze che ho percepito da solo. Non sono ancora nella scienza dei dati, ma spero di passare al prossimo anno. In questo senso prendo qui i miei due centesimi con un granello di sale.


2

Dico che un Data Scientist è un ruolo in cui si creano risultati leggibili dall'uomo per le aziende, usando i metodi per rendere il risultato statisticamente solido (significativo).

Se una parte di questa definizione non viene seguita, parliamo di uno sviluppatore, un vero scienziato / statistico o un ingegnere dei dati.


2

Mi piace sempre tagliare all'essenza della questione.

statistics - science + some computer stuff + hype = data science

1
Sembra l'impressione che ho formato di "machine learning", che incapsulo come "imparare a far funzionare un software senza capire come funziona effettivamente" (ingiusto ovviamente, ma vediamo molto "machine learning" persone che escono da scuola e non comprendono altro che cosa rappresentano i parametri di regolazione di diversi tipi di reti neurali.)
jbowman,

1

La scienza dei dati è una miscela multidisciplinare di inferenza dei dati, sviluppo di algoritmi e tecnologia al fine di risolvere problemi analiticamente complessi. Ma a causa della carenza di Data Scientists, una carriera nella scienza dei dati può davvero creare numerose opportunità. Tuttavia, le organizzazioni sono alla ricerca di professionisti certificati da SAS, Data Science Council of America (DASCA), Hortonworks ecc. Spero che questa sia una buona informazione!


1

I data scientist hanno competenze molto competenti nello sviluppo di Python, MySQL e Java.

Hanno una comprensione molto chiara delle funzioni analitiche, molto bene in matematica, statistica, data mining, capacità di analisi predittiva e hanno anche un'ottima conoscenza dei linguaggi di codifica come Python e R.

Molti data scientist in questo momento hanno il loro dottorato di ricerca. o il loro master in realtà secondo la ricerca solo circa l'8% ha semplicemente un diploma di laurea, quindi è molto più approfondito.

Costruire modelli statistici che prendono decisioni in base ai dati. Ogni decisione può essere difficile, ad esempio bloccare il rendering di una pagina, o soft, ad esempio assegnare un punteggio per la pericolosità di una pagina, che viene utilizzata da sistemi discendenti o umani.

Condurre esperimenti di causalità che tentano di attribuire la causa principale di un fenomeno osservato. Questo può essere fatto progettando esperimenti A / B o se l'esperimento A / B non è possibile applicare l'approccio epidemiologico al problema, ad esempio il modello causale @ Rubin

Identificazione di nuovi prodotti o funzionalità derivanti dallo sblocco del valore dei dati; essere un leader di pensiero sul valore dei dati. Un buon esempio di ciò è la funzionalità dei consigli sui prodotti che Amazon ha reso disponibile per la prima volta a un pubblico di massa.


1
Beh no. Sono il massimo che puoi ottenere nella catena di lavoro dello scienziato di dati e non conosco affatto Java, né sono affatto esperto in Python e le mie competenze su MySQL sono al massimo di qualità generica. Nel mio gruppo abbiamo un paio di altre persone che conoscono il piccolo Python, preferendo R, e solo una persona conosce Java, ma principalmente codice in R e C / C ++ (come me.) Tre persone conoscono Python ma non ne conoscono davvero lingua di livello inferiore. Non voglio entrare nelle guerre di fiamma di Python v. R, o Java v. C / C ++, ma non è assolutamente necessario che il tuo elenco di abilità relative alla programmazione sia necessario.
jbowman,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.