Dopo essermi laureato di recente in dottorato in statistica, negli ultimi mesi ho iniziato a cercare lavoro nel campo statistico. Quasi tutte le aziende che ho considerato avevano un annuncio di lavoro con il titolo di " Data Scientist ". In effetti, sembrava che fossero passati i tempi in cui vedevo titoli di lavoro di Statistical Scientist o Statistician . Essere uno scienziato di dati aveva davvero sostituito ciò che era uno statistico o erano i titoli che mi chiedevo?
Bene, la maggior parte delle qualifiche per i lavori sembravano cose che si sarebbero qualificate sotto il titolo di statistico. La maggior parte dei lavori desiderava un dottorato di ricerca in statistica ( ), comprensione sperimentale più richiesta ( segno di ), regressione lineare e anova ( segno di ), modelli lineari generalizzati ( segno di ) e altri metodi multivariati come PCA ( ) , nonché le conoscenze in un ambiente di calcolo statistico come R o SAS ( ). Sembra che uno scienziato di dati sia in realtà solo un nome in codice per statistico.✓✓ ✓ ✓
Tuttavia, ogni intervista a cui sono andato ha iniziato con la domanda: "Quindi hai familiarità con gli algoritmi di apprendimento automatico?" Il più delle volte, mi sono ritrovato a dover provare a rispondere a domande su big data, elaborazione ad alte prestazioni e argomenti su reti neurali, CART, macchine vettoriali di supporto, potenziamento di alberi, modelli non supervisionati, ecc. Certo, mi sono convinto che fossero tutti domande statistiche a cuore, ma alla fine di ogni intervista non ho potuto fare a meno di lasciare la sensazione di sapere sempre meno cosa sia uno scienziato di dati.
Sono uno statistico, ma sono uno scienziato di dati? Lavoro su problemi scientifici, quindi devo essere uno scienziato! E anche io lavoro con i dati, quindi devo essere uno scienziato di dati! E secondo Wikipedia, la maggior parte degli accademici sarebbe d'accordo con me ( https://en.wikipedia.org/wiki/Data_science , ecc.)
Sebbene l'uso del termine "scienza dei dati" sia esploso negli ambienti aziendali, molti accademici e giornalisti non vedono alcuna distinzione tra scienza dei dati e statistica.
Ma se sto partecipando a tutte queste interviste di lavoro per una posizione di data scientist, perché mi sembra che non mi facciano mai domande statistiche?
Bene, dopo la mia ultima intervista, volevo che qualsiasi bravo scienziato lo facesse e ho cercato dati per risolvere questo problema (ehi, dopo tutto sono uno scienziato di dati). Tuttavia, dopo molte innumerevoli ricerche di Google in seguito, sono finito proprio dove ho iniziato a sentirmi di nuovo alle prese con la definizione di cosa fosse uno scienziato di dati. Non sapevo cosa fosse esattamente un data scientist dato che c'erano così tante definizioni, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) ma sembrava che tutti mi dicessero che volevo essere uno:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- ecc .... l'elenco potrebbe continuare.
Bene, alla fine della giornata, quello che ho capito era "cos'è uno scienziato di dati" è una domanda molto difficile a cui rispondere. Cavolo, ci sono stati due interi mesi ad Amstat dove hanno dedicato del tempo a cercare di rispondere a questa domanda:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bene, per ora, devo essere uno statistico sexy per essere uno scienziato di dati, ma spero che la comunità validata in modo incrociato possa essere in grado di far luce e aiutarmi a capire cosa significhi essere uno scienziato di dati. Non tutti gli esperti di dati statistici?
(Edit / Update)
Ho pensato che questo potesse rendere più piccante la conversazione. Ho appena ricevuto un'e-mail dall'American Statistical Association su un lavoro in corso con Microsoft alla ricerca di un Data Scientist. Ecco il link: Data Scientist Position . Penso che questo sia interessante perché il ruolo della posizione colpisce molti tratti specifici di cui abbiamo parlato, ma penso che molti di loro richiedano un background molto rigoroso nelle statistiche, oltre a contraddire molte delle risposte postate di seguito. Nel caso in cui il collegamento si interrompa, ecco le qualità che Microsoft cerca in uno scienziato di dati:
Requisiti e competenze professionali principali:
Esperienza nel dominio aziendale utilizzando Analytics
- Deve avere esperienza in diversi settori aziendali rilevanti nell'utilizzo di capacità di pensiero critico per concettualizzare problemi aziendali complessi e le loro soluzioni utilizzando analisi avanzate in set di dati aziendali reali su larga scala
- Il candidato deve essere in grado di gestire autonomamente progetti analitici e aiutare i nostri clienti interni a comprendere i risultati e tradurli in azioni a beneficio della loro attività.
Modellazione predittiva
- Esperienza in tutti i settori nella modellazione predittiva
- Definizione dei problemi aziendali e modellazione concettuale con il cliente per suscitare relazioni importanti e definire l'ambito del sistema
Statistiche / Econometria
- Analisi dei dati esplorativi per dati continui e categorici
- Specifica e stima delle equazioni del modello strutturale per comportamento di impresa e consumatore, costo di produzione, domanda di fattore, scelta discreta e altre relazioni tecnologiche secondo necessità
- Tecniche statistiche avanzate per analizzare dati continui e categorici
- Analisi delle serie storiche e implementazione di modelli previsionali
- Conoscenza ed esperienza nel lavorare con problemi con più variabili
- Capacità di valutare la correttezza del modello e condurre test diagnostici
- Capacità di interpretare statistiche o modelli economici
- Conoscenza ed esperienza nella costruzione di simulazione di eventi discreti e modelli di simulazione dinamica
Gestione dei dati
- Familiarità con l'uso di T-SQL e analisi per la trasformazione dei dati e l'applicazione di tecniche esplorative di analisi dei dati per insiemi di dati del mondo reale molto grandi
- Attenzione all'integrità dei dati tra cui ridondanza dei dati, accuratezza dei dati, valori anomali o estremi, interazioni dei dati e valori mancanti.
Abilità comunicative e di collaborazione
- Lavorare in modo indipendente e in grado di lavorare con un team di progetto virtuale che ricercherà soluzioni innovative per risolvere problemi aziendali
- Collabora con i partner, applica capacità di pensiero critico e promuovi progetti analitici end-to-end
- Abilità comunicative superiori, sia verbali che scritte
- Visualizzazione dei risultati analitici in una forma che può essere consumata da una serie diversificata di parti interessate
Pacchetti software
- Pacchetti software statistici / econometrici avanzati: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Esplorazione, visualizzazione e gestione dei dati: T-SQL, Excel, PowerBI e strumenti equivalenti
Titoli di studio:
- Sono richiesti almeno 5 anni di esperienza
- La laurea specialistica in ambito quantitativo è auspicabile.