Suggerimenti per un nuovo scienziato di dati


8

Sto per iniziare un lavoro in cui lavorerò con set di dati di grandi dimensioni e ci si aspetta che trovino tendenze, ecc. Ho trovato molte risorse su dove imparare ML e altre abilità difficili e sentire che sono (semi ) competente a tal fine.

Sono interessato a sapere se esistono competenze trasversali specifiche utili come data scientist. Quali sono le cose che vorresti sapere all'inizio?

Mentre Kaggle è molto utile durante l'apprendimento, presenta anche obiettivi chiari. Come gestisci il fatto di ricevere un set di dati, ma nessun obiettivo chiaro?

Fammi sapere se questo è troppo ampio, posso pensare a domande più specifiche.


3
consiglio n. 1: non accarezzare mai un cane in fiamme
Brandon Loudermilk

1
Se non ti dispiace, ti preghiamo di condividere il settore in cui ti trovi. La matematica e i concetti rimangono gli stessi, tuttavia la struttura dei dati varia e anche il modo in cui uno può affrontarli. I consigli che seguono sono molto appropriati e se praticati saranno di grande aiuto. Spero che conoscendo il settore potrei essere in grado di condividere qualcosa che puoi mettere in relazione direttamente.
Drj

Spero che chiunque ti abbia intervistato per questo lavoro stia leggendo questo e pensando "perché non abbiamo posto quelle domande al colloquio?".
Spacedman

Drj, lavorerò in parte con i dati del processo di produzione e in parte con i dati di feedback dei clienti. Sembra un ampio spettro. Vengo dal mondo accademico, dove i dati sono stati prodotti dai miei stessi esperimenti e avevo obiettivi molto chiari.
Hobbes,

Risposte:


8

Penso che ci siano molte importanti competenze trasversali da considerare nel campo della scienza dei dati.

Ecco qui alcuni di loro:

  1. Sapere per certo quale sia l'obiettivo, sprecare molto tempo nella lotta ai dati, nei modelli, nella visualizzazione e nei rapporti quando non era tutto per l'obiettivo specifico. Comunicare con persone meno tecniche è un'abilità in sé.
  2. Scorrere ripetutamente con il proprietario del prodotto. Continua ad assicurarti di essere sulla strada giusta.
  3. Se i dati non raccontano la storia che pensavano / vorrebbero dirgli che non è il caso, sii chiaro sul perché questo accada, quali pregiudizi potrebbero avere un ruolo, eccetera. Non applicare tutti i tipi di filtri o continuare a modificare i parametri per ottenere i risultati desiderati.

Per quanto riguarda la tua seconda domanda:

L'obiettivo deve essere ottenuto esplicitamente dal proprietario del prodotto o derivato da un obiettivo meno matematico. Un esempio potrebbe essere quello in cui è necessario prevedere gli arrivi dei treni in base ad alcune funzionalità. Vogliono che il modello preveda il maggior numero di volte possibile entro un intervallo di errori di 10 minuti. Questo è relativamente esplicito.

A volte è meno chiaro di così, potrebbero dire che ne abbiamo bisogno nel modo più preciso possibile. Quindi dovrai decidere cosa ottimizzare, in alcuni casi, ciò ridurrà al minimo l'MSE, ma in altri casi, altre cose potrebbero avere più senso per il tuo caso. Di solito, questo sarà chiaro dall'obiettivo implicito e da qualcosa in cui migliorerai con più esperienza. Sia gli obiettivi impliciti che quelli espliciti derivano da una chiara comunicazione con il proprietario del prodotto.


Grazie per il commento, penso che i tuoi consigli su come comunicare con persone meno tecniche siano davvero utili e sicuramente qualcosa su cui devo lavorare.
Hobbes,

Ho anche aggiunto alcune informazioni sull'obiettivo
Jan van der Vegt,

Molto utile, terrò a mente questo andare avanti. (Suppongo che non posso votare fino a quando non ho una reputazione più alta)
Hobbes

5

"Come gestisci il fatto di ricevere un set di dati, ma nessun obiettivo chiaro?"

Questo sarà comune.

A parte i consigli di cui sopra, capire che è essenziale comprendere gli obiettivi dell'azienda in cui ci si trova e del proprio cliente immediato. Spesso dovrai capire il problema specifico che li ha portati a utilizzare i dati meglio di loro. È molto comune presentare dati e un obiettivo poco chiaro da parte del tuo cliente interno o esterno: di solito sarà tuo compito fornire un obiettivo che può essere raggiunto con i dati e risolvere l'effettivo problema commerciale del cliente. Sarà necessaria una quantità di pensiero laterale per far corrispondere il risultato dei dati e la soluzione di business.

Riassumo quanto sopra come "definire l'obiettivo è troppo importante (e forse troppo difficile!) Per essere lasciato al cliente (da solo)".

Nel contesto dell'apprendimento automatico, CRISP-DM è una metodologia che tenta di risolvere questo problema iterando attraverso un ciclo in modo da poter utilizzare una comprensione aggiuntiva dei dati in discussione con il cliente per comprendere meglio il problema originale. Quindi, per esempio, potrebbero dichiarare un obiettivo mal definito, una seconda discussione dopo aver fatto dell'EDA lo taglierà leggermente. Quando in seguito producerai un modello che funziona bene, ma non è sul bersaglio giusto, ti avvicinerai di nuovo al vero obiettivo di business.

In altre parole, non essere troppo disturbato dalla confusione del compito. Aspettati di incontrare un vaccuum e riempilo a tuo vantaggio.

È un leggero spostamento laterale, ma la metodologia six sigma tenta di risolvere questo problema in un contesto diverso con il sistema DMAIC (la "D" sta per "Definisci", in termini di "voce del cliente"), quindi è è probabile che alcuni suggerimenti possano essere raccolti nelle risorse per il contesto six sigma (ad esempio esercizi che puoi fare con un cliente che li aiutano a esprimere ciò che desideri in modo più chiaro)


Grazie, è un ottimo feedback. Mi piace soprattutto "definire l'obiettivo è troppo importante (e forse troppo difficile!) Per essere lasciato al cliente (da solo)". Esaminerò sicuramente CRISP-DM.
Hobbes,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.