Statistica + Informatica = Data Science? [chiuso]


10

voglio diventare uno scienziato di dati . Ho studiato la statistica applicata (scienza attuariale), quindi ho un grande background statistico (regressione, processo stocastico, serie storiche, solo per citarne alcuni). Ma ora ho intenzione di fare un master in informatica in sistemi intelligenti.

Ecco il mio piano di studi:

  • Apprendimento automatico
  • Apprendimento automatico avanzato
  • Estrazione dei dati
  • Logica fuzzy
  • Sistemi di raccomandazione
  • Sistemi di dati distribuiti
  • Cloud computing
  • Scoperta della conoscenza
  • Business Intelligence
  • Recupero delle informazioni
  • Estrazione di testo

Alla fine, con tutte le mie conoscenze statistiche e informatiche, posso definirmi uno scienziato di dati? , o mi sbaglio?

Grazie per le risposte



Questa domanda sembra fuori tema perché riguarda i consigli di carriera. È stato dimostrato che la consulenza professionale porta a domande orientate all'opinione pubblica, ampie o talvolta estremamente limitate, la maggior parte delle quali non porta a nessun discorso utile. Se non sei d'accordo con questa opinione, solleva il problema su Data Science Meta .
asheeshr,

In poche parole, no. Dati + Metodo scientifico = Data Science :-). Tutto il resto è solo una metodologia per arrivarci
I_Play_With_Data

Risposte:


1

Penso che tu sia sulla buona strada per diventare un esperto scienziato di dati . Recentemente ho risposto alla domanda correlata qui su Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (presta attenzione alla definizione che menziono lì, poiché essenzialmente risponde alla tua domanda da sola, nonché a aspetti della pratica dell'ingegneria del software e dell'applicazione delle conoscenze per risolvere i problemi del mondo reale ). Spero che troverai tutto ciò utile. Buona fortuna nella tua carriera!


9

Beh, dipende da quale tipo di "Data Science" desideri entrare. Per le analisi di base e le statistiche sui rapporti sarà sicuramente d'aiuto, ma per Machine Learning e Intelligenza artificiale avrai bisogno di qualche abilità in più

  • Teoria della probabilità : devi avere un solido background in pura probabilità in modo da poter scomporre qualsiasi problema, visto prima o no, in principi probabilistici. Le statistiche aiutano molto per i problemi già risolti, ma i problemi nuovi e irrisolti richiedono una profonda comprensione della probabilità in modo da poter progettare tecniche appropriate.

  • Teoria dell'informazione - questo (rispetto alle statistiche) è un campo piuttosto nuovo (anche se ancora vecchio di decenni), il lavoro più importante è stato di Shannon, ma ancora più importante e spesso trascurato nella letteratura è il lavoro di Hobson che ha dimostrato che Kullback-Leibler Divergence è l'unica definizione matematica che cattura veramente la nozione di "misura di informazione" . Ora fondamentale per l'intelligenza artificiale è la capacità di quantificare le informazioni. Suggerisci di leggere "Concetti di meccanica statistica" - Arthur Hobson (libro molto costoso, disponibile solo nelle biblioteche accademiche).

  • Teoria della complessità- Un grosso problema che molti data scientist affrontano e che non hanno un solido background di teoria della complessità è che i loro algoritmi non si ridimensionano o impiegano molto tempo per essere eseguiti su dati di grandi dimensioni. Prendiamo ad esempio PCA, la risposta preferita di molte persone alla domanda dell'intervista "come si riduce il numero di funzionalità nel nostro set di dati", ma anche se si dice al candidato "il set di dati è davvero molto grande", continuano a proporre varie forme di PCA che sono O (n ^ 3). Se vuoi distinguerti, vuoi essere in grado di risolvere ogni problema da solo, NON gettare qualche soluzione di libro di testo progettata molto tempo fa prima che i Big Data fossero una cosa così alla moda. Per questo è necessario capire quanto tempo impiegano le cose, non solo teoricamente, ma praticamente - quindi come utilizzare un cluster di computer per distribuire un algoritmo,

  • Abilità comunicative - Una grande parte di Data Science è la comprensione degli affari. Che si tratti di inventare un prodotto guidato dalla scienza dei dati o di fornire informazioni di business guidate dalla scienza dei dati, è molto importante essere in grado di comunicare bene sia con il Project e Product Manager, i team tecnologici e gli altri data scientist. Puoi avere un'idea straordinaria, dire una straordinaria soluzione di intelligenza artificiale, ma se non riesci in modo efficace (a) a comunicare PERCHE 'che farà guadagnare soldi al business, (b) convincere i tuoi colleghi che funzioneranno e (c) spiegare alle persone tecnologiche di cosa hai bisogno il loro aiuto per costruirlo, quindi non sarà fatto.


6

Data scientist (per me) un grande termine. Vorrei vedere uno scienziato di dati come una persona in grado di utilizzare abilmente tecniche nei campi del data mining, dell'apprendimento automatico, della classificazione dei modelli e delle statistiche.

Tuttavia, questi termini si intrecciano a: l'apprendimento automatico è legato alla classificazione dei modelli e anche il data mining si sovrappone quando si tratta di trovare modelli nei dati. E tutte le tecniche hanno i loro principi statistici sottostanti. Lo immagino sempre come un diagramma di Venn con un enorme incrocio.

Le scienze informatiche sono correlate anche a tutti questi campi. Direi che hai bisogno di tecniche di "scienza dei dati" per fare ricerca informatica, ma la conoscenza dell'informatica non è necessariamente implicita nella "scienza dei dati". Tuttavia, le capacità di programmazione - vedo la programmazione e l'informatica come diverse professioni, in cui la programmazione è più lo strumento per risolvere i problemi - sono importanti anche per lavorare con i dati e condurre analisi dei dati.

Hai un piano di studio davvero carino, e tutto ha un senso. Ma non sono sicuro che se "vuoi" definirti solo "data scientist", ho l'impressione che "data scientist" sia un termine così ambiguo che può significare tutto o niente. Quello che voglio comunicare è che finirai per essere qualcosa di più - più "specializzato" - che "solo" uno scienziato di dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.