Di cosa si tratta
Solo conoscere le tecniche è simile a conoscere gli animali in uno zoo: puoi nominarli, descriverne le proprietà, forse identificarli in natura.
Comprendere quando usarli, formulare, costruire, testare e distribuire modelli matematici funzionanti all'interno di un'area applicativa evitando le insidie --- queste sono le abilità che distinguono, secondo me.
L'enfasi dovrebbe essere sulla scienza , applicando un approccio sistematico e scientifico ai problemi aziendali, industriali e commerciali. Ma ciò richiede competenze più ampie del data mining e dell'apprendimento automatico, come sostiene Robin Bloor in modo convincente in "A Data Science Rant" .
Quindi cosa si può fare?
Aree di applicazione : scopri le varie aree di applicazione vicine al tuo interesse o a quello del tuo datore di lavoro. L'area è spesso meno importante della comprensione di come è stato costruito il modello e di come è stato utilizzato per aggiungere valore a quell'area. I modelli che hanno successo in un'area possono spesso essere trapiantati e applicati a diverse aree che funzionano in modo simile.
Competizioni : prova il sito di competizione di data mining Kaggle , preferibilmente unendoti a una squadra di altri. (Kaggle: una piattaforma per competizioni di modellazione predittiva. Aziende, governi e ricercatori presentano set di dati e problemi e i migliori scienziati di dati del mondo competono per produrre le migliori soluzioni.)
Fondamenti : Esistono quattro: (1) solide basi statistiche, (2) capacità di programmazione ragionevolmente buone, (3) comprensione di come strutturare query di dati complessi, (4) costruzione di modelli di dati. Se uno è debole, allora è un punto importante da cui iniziare.
Alcune citazioni al riguardo:
`` Ho imparato molto presto la differenza tra conoscere il nome di qualcosa e conoscere qualcosa. Puoi conoscere il nome di un uccello in tutte le lingue del mondo, ma quando hai finito, non saprai assolutamente nulla dell'uccello ... Quindi guardiamo l'uccello e vediamo cosa sta facendo - questo è ciò che conta. '' - Richard Feynman, "The Making of a Scientist", p14 in Cosa ti importa di cosa pensano gli altri, 1988
Tieni a mente:
`` La combinazione di competenze richieste per realizzare questi progetti di scienza delle imprese [data science] raramente risiede in una persona. Qualcuno avrebbe potuto effettivamente acquisire una conoscenza approfondita nelle triple aree di (i) cosa fa l'azienda, (ii) come utilizzare le statistiche e (iii) come gestire i dati e i flussi di dati. In tal caso, potrebbe effettivamente affermare di essere uno scienziato aziendale (noto anche come "scienziato dei dati") in un determinato settore. Ma tali individui sono quasi rari come i denti di gallina. '' - Robin Bloor, A Data Science Rant , ago 2013, Inside Analysis
E infine:
`` La mappa non è il territorio '' - Alfred Korzybski, 1933, Science & Sanity.
I problemi più reali, applicati non sono accessibili esclusivamente dalla `` mappa ''. Per fare cose pratiche con la modellazione matematica, bisogna essere disposti a diventare sporchi con dettagli, sottigliezze ed eccezioni. Nulla può sostituire la conoscenza diretta del territorio.