Come autoapprendimento della scienza dei dati? [chiuso]


16

Sono uno sviluppatore web autodidatta e sono interessato a insegnare a me stesso la scienza dei dati, ma non sono sicuro di come iniziare. In particolare, mi chiedo:

  1. Quali campi ci sono nella scienza dei dati? (ad es. Intelligenza artificiale, apprendimento automatico, analisi dei dati, ecc.)
  2. Ci sono lezioni online che le persone possono consigliare?
  3. Ci sono progetti disponibili là fuori su cui posso esercitarmi (ad esempio, set di dati aperti).
  4. Ci sono certificazioni che posso richiedere o completare?

Risposte:


15

Benvenuto nel sito, Martin! Questa è una domanda piuttosto ampia, quindi probabilmente otterrai una varietà di risposte. Ecco la mia opinione.

  1. La scienza dei dati è un campo interdisciplinare generalmente pensato per combinare statistiche classiche, apprendimento automatico e informatica (di nuovo, ciò dipende da chi si chiede, ma altri potrebbero includere la business intelligence qui e la possibile visualizzazione delle informazioni o scoperta della conoscenza; ad esempio, l'articolo di Wikipedia sulla scienza dei dati ). Un bravo scienziato di dati è anche abile nel raccogliere le caratteristiche specifiche del dominio in cui lavora. Ad esempio, uno scienziato di dati che si occupa di analisi per i registri ospedalieri è molto più efficace se ha un background in Informatica biomedica.
  2. Ci sono molte opzioni qui, a seconda del tipo di analisi che ti interessa. Il corso di coursera di Andrew Ng è la prima risorsa menzionata dalla maggior parte , e giustamente. Se sei interessato all'apprendimento automatico, è un ottimo punto di partenza. Se vuoi un'esplorazione approfondita della matematica coinvolta, The Elements of Statistical Learning di Tibshirani è un testo eccellente, ma abbastanza avanzato. Ci sono molti corsi online disponibili sulla corsia oltre a quelli di Ng, ma dovresti selezionarli pensando al tipo di analisi su cui vuoi concentrarti e / o al dominio in cui intendi lavorare.
  3. Kaggle . Inizia con Kaggle, se vuoi immergerti in alcuni problemi di analisi del mondo reale. Tuttavia, a seconda del tuo livello di competenza, potrebbe essere utile iniziare in modo più semplice. Il Project Euler è un'ottima risorsa per i problemi di pratica una tantum che uso ancora come lavoro di riscaldamento.
  4. Ancora una volta, questo probabilmente dipende dal dominio in cui desideri lavorare. Tuttavia, so che Coursera offre un certificato di scienza dei dati, se completi una serie di corsi relativi alla scienza dei dati. Questo è probabilmente un buon punto di partenza.

In bocca al lupo! Se hai altre domande specifiche, sentiti libero di chiedermi nei commenti e farò del mio meglio per aiutarti!


1
Tornando a questo, il corso di Andrew Ng è difficile . Avrei dovuto menzionare che non sono forte in matematica. Ho sentito che questo altro corso di Data Science è un po 'più semplice per imparare le corde. Cosa pensi?
Martin

5

Sono uno scienziato di dati autodidatta e farei del mio meglio per spiegarti come procedere.


Quali campi ci sono nella scienza dei dati? (ad es. Intelligenza artificiale, apprendimento automatico, analisi dei dati, ecc.)

Data Science è un dominio molto ampio. Riguarda la scienza dei dati. Pertanto, qualsiasi campo che utilizza i dati per prendere decisioni rientra in questo dominio. Alcuni dei campi includono:

  • AI
  • Riconoscimento e analisi dei modelli
  • Bio-statistiche
  • Apprendimento statistico
  • Apprendimento automatico
  • Estetica dei dati (o visualizzazione dei dati)
  • Giornalismo sui dati

Ci sono lezioni online che le persone possono consigliare?

Ho risposto a una domanda simile . Quindi lo citerei qui:

Inizia con il corso di Machine Learning di Coursera . Fa davvero un buon lavoro nel presentare lo studente al dominio del Machine Learning e ti aiuta a gettare solide basi nei concetti.

Nel caso, ritieni che la matematica sia un po 'scema in quel corso, puoi seguire questo corso , tenuto dallo stesso professore ed è ad alta intensità di matematica rispetto al primo.

Ora avresti una chiara intuizione sui concetti di base di Machine Learning. Ora segui questo corso , che può essere definito come un follow-up o un supplemento per il corso di Andrew Ng.

Questa risorsa di IAPR contiene note approfondite su molti concetti ML come la validazione incrociata, la regolarizzazione, ecc.

Puoi anche dare un'occhiata a questo fantastico elenco di risorse compilato in un blog su Quora.

Ora, per immergerti in concetti avanzati di reti neurali e apprendimento profondo, puoi utilizzare questo libro gratuito .

Infine, l'e-book gratuito: Elements of Statistical Learning è un meraviglioso libro per principianti in ML o Statistical Learning.

Inoltre, dai un'occhiata a questo repository di riferimenti di data science di Quora .


Ci sono progetti disponibili là fuori su cui posso esercitarmi (ad esempio, set di dati aperti).

Ho iniziato a fare progetti con set di dati aperti dell'India. Tuttavia, ti consiglio di dare un'occhiata a questa fantastica discussione qui , e dopo aver fatto quei progetti, puoi iniziare con Kaggle.


Ci sono certificazioni che posso richiedere o completare?

Secondo me, non ci sono certificazioni per la scienza dei dati . Sì, ci sono molte certificazioni di Big Data là fuori, ma non le ho viste essere davvero utili per uno scienziato in erba, quindi ti consiglio di non inseguirle almeno fino a quando non sarai abbastanza sicuro delle tue abilità ML e dati.


1

Consiglio di partire dalle specializzazioni Coursera nella scienza dei dati. La specializzazione in scienza dei dati di Johns Hopkins è la più antica specializzazione in esecuzione. Non consiglio libri e kaggle. Ti confondono solo all'inizio. Tieni presente che la codifica è la parte più semplice della scienza dei dati e devi imparare molto. Per avere un'idea sul campo, questo diagramma di Venn è un buon inizio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.