Quanta della lotta ai dati è il lavoro di uno scienziato di dati?


44

Attualmente sto lavorando come data scientist presso una società di vendita al dettaglio (il mio primo lavoro come DS, quindi questa domanda potrebbe essere il risultato della mia mancanza di esperienza). Hanno un enorme arretrato di progetti di data science davvero importanti che avrebbero un grande impatto positivo se implementati. Ma.

Le pipeline di dati sono inesistenti all'interno dell'azienda, la procedura standard prevede che mi consegnino gigabyte di file TXT ogni volta che ho bisogno di informazioni. Pensa a questi file come registri tabulari delle transazioni archiviate in notazione e struttura arcana. Nessuna intera informazione è contenuta in un'unica fonte di dati e non possono concedermi l'accesso al loro database ERP per "motivi di sicurezza".

L'analisi iniziale dei dati per il progetto più semplice richiede una lotta brutale e lancinante ai dati. Oltre l'80% del tempo impiegato da un progetto è stato quello di cercare di analizzare questi file e incrociare le origini dati al fine di creare set di dati validi. Questo non è un problema di semplice gestione dei dati mancanti o di preelaborazione, si tratta del lavoro necessario per creare dati che possono essere gestiti in primo luogo ( risolvibili da dba o ingegneria dei dati, non dalla scienza dei dati? ).


1) Sembra che la maggior parte del lavoro non sia affatto correlata alla scienza dei dati. È preciso?

2) So che questa non è una società guidata dai dati con un dipartimento di ingegneria dei dati di alto livello, ma è mia opinione che per costruire un futuro sostenibile di progetti di scienza dei dati siano richiesti livelli minimi di accessibilità dei dati . Ho sbagliato?

3) Questo tipo di installazione è comune per un'azienda con gravi esigenze di scienza dei dati?


Hai specificato in quale formato vuoi le informazioni? E dare loro istruzioni su come possono farlo con il loro ERP?
jonnor

@jonnor Certo. Lavoro qui da quasi due anni e dal primo giorno ho spiegato come potremmo costruire una piattaforma migliore per l'accessibilità dei dati. C'è una forte resistenza al cambiamento di ciò che l'azienda ha fatto per 30 anni.
Victor Valente,

13
Inizia a monitorare le tue ore e convertilo in un costo su quanto stanno sprecando il tuo tempo a convertire il TXT in un formato utilizzabile. Scommetto che una volta che avranno un valore di $, potranno farlo.
Nelson,

Se è un onere per il tuo tempo potresti esternalizzarlo.
Sarcoma,

Trovo confuso che una società assuma un Data Scientist e sia comunque resistente al cambiamento. Dovresti mostrare loro la quantità di tempo sprecato e il pericolo di conservare i dati in file TXT lunghi senza una vera sicurezza intorno a loro
Pedro Henrique Monforte

Risposte:


27
  1. Sembra che la maggior parte del lavoro non sia affatto correlata alla scienza dei dati. È preciso?

  2. So che questa non è una società basata sui dati con un dipartimento di ingegneria dei dati di alto livello, ma è mia opinione che la scienza dei dati richieda livelli minimi di accessibilità dei dati. Ho sbagliato?

    Non sbagli, ma tali sono le realtà della vita reale.

  3. Questo tipo di installazione è comune per un'azienda con gravi esigenze di scienza dei dati?

Da un punto di vista tecnico, è necessario esaminare le soluzioni ETL che possono semplificarti la vita. A volte uno strumento può essere molto più veloce di un altro per leggere determinati dati. Ad esempio il readxl di R è un ordine di mangnitudini più veloce dei panda di Python nella lettura dei file xlsx; è possibile utilizzare R per importare i file, quindi salvarli in un formato compatibile con Python (parquet, SQL, ecc.). So che non stai lavorando su file xlsx e non ho idea se usi Python - era solo un esempio.

Dal punto di vista pratico, due cose:

  • Prima di tutto, capire cosa è tecnicamente possibile. In molti casi, le persone che ti dicono di sapere sono persone analfabete IT che si preoccupano di considerazioni di business o conformità, ma non hanno idea di cosa sia e non sia fattibile dal punto di vista IT. Prova a parlare con i DBA o con chiunque gestisca l'infrastruttura di dati. Comprendi cosa è tecnicamente possibile. ALLORA, solo allora, cerca di trovare un compromesso. Ad esempio, non ti daranno accesso al loro sistema, ma presumo ci sia un database dietro? Forse possono estrarre i dati in alcuni altri formati? Forse possono estrarre le istruzioni SQL che definiscono i tipi di dati ecc.?

  • Gli uomini d'affari hanno maggiori probabilità di aiutarti se riesci a sostenere che farlo è nel LORO interesse. Se non credono nemmeno in quello che stai facendo, sfortuna ...


2
Ottimo punto su come trovare / costruire una soluzione ETL. Ho solo bisogno di aggiungere: scegli una configurazione che ti piace e che puoi leggere / debug facilmente. Nelle prime fasi dell'automazione delle attività, questo è ancora più importante della ricerca dello strumento più veloce per lo slurp dei dati. Se si tratta di concerti di testo, probabilmente durerà dall'oggi al domani e la tua fluidità con uno strumento / framework / linguaggio può fare la differenza tra il risveglio con dati validi o qualcosa che devi ricominciare. Solo un singolo rifacimento può cancellare qualsiasi vantaggio in termini di efficienza. Meglio essere stabili con meno bug che andare veloci e inciampare.
Jason

2
Vero. Ma, inoltre, non ottimizzare eccessivamente. Scegli le tue priorità con saggezza. Se l'importazione dei dati è una tantum, non passare giorni a cercare come ridurre il tempo di importazione da 2 ore a 30 minuti. Ecc.
PythonGuest

39

Questa è una situazione che molti blog, aziende e articoli riconoscono come qualcosa di reale in molti casi.

In questo articolo Data Wrangling for Big Data: Challenges and Opportunities , c'è una citazione a riguardo

i data scientist impiegano dal 50% all'80% del loro tempo

raccolta e preparazione di dati digitali indisciplinati.

Inoltre, puoi leggere la fonte di quella citazione in questo articolo del New York Times, Per gli scienziati di Big Data, "Il lavoro dei bidelli" è un ostacolo chiave per le intuizioni

Sfortunatamente, il mondo reale non è come Kaggle. Non ottieni un file CSV o Excel che puoi semplicemente avviare Data Exploration con un po 'di pulizia. Devi trovare i dati in un formato non adatto alle tue esigenze.

Quello che puoi fare è utilizzare i vecchi dati il ​​più possibile e provare ad adattare la memorizzazione di nuovi dati in un processo che sarà più facile per te (o un futuro collega) lavorare.



4
Forbes non dovrebbe essere menzionato da nessuna parte insieme alle parole "scienza dei dati".
gented

50-80% basato su "quote" (interviste e stime di esperti)
oW_

3
@gented Commento basato sull'opinione su un sondaggio basato sull'opinione in un articolo basato sull'opinione inserito in una risposta basata sull'opinione a una domanda basata sull'opinione. Chi avrebbe mai pensato di trovarlo in "Data Science" SE?
Keeta

25

Sembra che la maggior parte del lavoro non sia affatto correlata alla scienza dei dati. È preciso?

Questa è la realtà di qualsiasi progetto di scienza dei dati. Google lo ha effettivamente misurato e pubblicato un documento "Debito tecnico nascosto nei sistemi di apprendimento automatico" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

inserisci qui la descrizione dell'immagine

Il risultato del documento riflette anche la mia esperienza. Gran parte del tempo è dedicato all'acquisizione, alla pulizia e all'elaborazione dei dati.


7
  1. Sembra che la maggior parte del lavoro non sia affatto correlata alla scienza dei dati. È preciso?

    La discussione sui dati è sicuramente nella descrizione del lavoro di Data Scientist. Ad un certo livello è necessario comprendere il processo di generazione dei dati al fine di utilizzarlo per guidare le soluzioni. Certo, qualcuno specializzato in ETL potrebbe farlo più velocemente / più efficientemente, ma ricevere dati sui dump non è raro nel mondo reale. Se non ti piace questo aspetto della scienza dei dati, potrebbe esserci l'opportunità di lavorare più da vicino con le risorse IT per ottenere i dati correttamente provenienti da un magazzino a cui hai accesso. In alternativa, è possibile trovare un lavoro che dispone già di dati nell'ordine migliore.

  2. So che questa non è una società basata sui dati con un dipartimento di ingegneria dei dati di alto livello, ma è mia opinione che la scienza dei dati richieda livelli minimi di accessibilità dei dati. Ho sbagliato?

    Penso che il livello minimo sia il file txt. Se hai accesso ai dati tramite file di testo, dovresti avere accesso ai dati nel database (spingi indietro con i superiori).

  3. Questo tipo di installazione è comune per un'azienda con gravi esigenze di scienza dei dati?

    Sì. Sei lo SCIENTISTA dei dati; tu sei l'esperto. Fa parte del tuo lavoro educare gli altri sulle inefficienze dell'attuale struttura di dati e su come puoi aiutare. I dati non utilizzabili non aiutano nessuno. Hai l'opportunità di migliorare le cose e modellare il futuro dell'azienda.


6

Come altro recente avvocato di Data Science, posso solo aggiungere che non credo che la tua esperienza sia unica, il mio team di circa 10 apparentemente non ha fatto alcun DS da oltre un anno (un piccolo progetto che ha occupato 2 dei squadra). Ciò è dovuto alla promessa di un'efficace pipeline su cui il team ha lavorato, ma non fornisce ancora i dati. Apparentemente la conservazione è stata piuttosto scarsa in passato e c'è la promessa continua di un ambiente sacro Graal di MS Azure per futuri progetti di DS.

Quindi per rispondere:

1) Sì totalmente accurato

2) No, hai ragione, ma è una battaglia in salita per ottenere l'accesso ai dati desiderati (se esiste).

3) Sono sicuro che ci sono aziende là fuori che sono meglio di altre. Se non riesci a sopportarlo nella tua attuale azienda, 2 anni sono un periodo di tempo decente, inizia a cercare cose più luminose (fai attenzione a come esprimi il tuo desiderio di lasciare il tuo lavoro attuale, qualcosa come "cercare di lavorare con un più dinamico team "suonerebbe meglio di" la mia vecchia azienda non mi darà i dati ").


5

Se guardi questo dal punto di vista di "questo non è il mio lavoro, quindi perché dovrei farlo", allora questo è un problema abbastanza comune, generale, non specifico per la scienza dei dati. In definitiva, il tuo compito è fare tutto ciò che il capo ti dice di fare, ma in pratica c'è poco motivo per cui il capo sia dittatoriale su questo e di solito possono essere persuasi. O almeno ti daranno una spiegazione sincera del perché debba essere così. Ma per quanto riguarda il ricorso all'autorità, non esiste una definizione ufficiale di "Data Science" che dice che si può fare solo al massimo X% di pulizia dei dati. L'autorità è chi ti sta pagando, a condizione che abbiano il diritto legale di smettere di pagarti.

Potresti anche guardarlo da un'altra prospettiva: è un buon uso del tuo tempo? Sembra che tu abbia preso un lavoro per svolgere alcune attività (che intendi per "scienza dei dati") ma devi fare un'altra cosa (che chiami "lotta ai dati"). Le descrizioni del lavoro e le sensazioni personali sono un po 'fuori dal punto qui perché c'è qualcosa di più pertinente: l'azienda presumibilmente ti paga una buona quantità di denaro per fare qualcosa che solo tu puoi fare (la scienza dei dati). Ma ti sta facendo fare altre cose, che potrebbero essere fatte da altre persone che sono una combinazione di più capaci, più motivate o meno costose. Se il wrangling dei dati potrebbe essere fatto da qualcuno che fa metà del tuo stipendio, allora non ha senso pagarti il ​​doppio per fare la stessa cosa. Se potesse essere fatto più velocementeda qualcuno pagato lo stesso stipendio, si applica la stessa logica. Pertanto è uno spreco di risorse (soprattutto denaro) che la società ti assegni questo compito. Venendo da questa prospettiva, potresti trovare molto più facile far vedere ai tuoi superiori il tuo lato delle cose.

Certo, alla fine, qualcuno deve combattere i dati. È possibile che tu sia il modo più economico, più veloce e più semplice per farlo - la persona migliore per il lavoro. In tal caso, sei un po 'sfortunato. Potresti provare a sostenere che non fa parte del tuo contratto, ma quali sono le probabilità che fossero abbastanza ingenue da mettere qualcosa di così specifico nel contratto?


3

Forse per dirla semplicemente:

  • Quando crei variabili e esegui il binning di numeri, lo faresti alla cieca o dopo aver analizzato i tuoi dati?
  • Quando i colleghi esaminano le tue scoperte, se avessero domande su particolari bit di dati, ti imbarazzerebbe non conoscerli?

Devi lavorare con i tuoi dati e comprenderli, inclusi elementi semplici dalla correzione delle incoerenze (NULL, stringhe vuote, "-") per capire come un dato va dalla raccolta alla visualizzazione. L'elaborazione include la conoscenza delle stesse informazioni, quindi è parzialmente lavoro che avresti dovuto fare comunque.

Ora, sembra che questa azienda potrebbe trarre vantaggio dall'impostare una sorta di istanza gratuita di MySQL (o simile) per conservare i tuoi dati. Cercare di essere flessibile quando si progetta il proprio codice di wrangling è anche una buona idea: avere un set di dati intermedio di dati elaborati penso che sarebbe utile se ti è permesso (e non puoi farlo in MySQL).

Ma ovviamente stai ancora sistemando le cose da zero. Questo non è un processo facile, ma questa "esperienza di apprendimento" è almeno buona da inserire nel tuo CV.


3

1) Sembra che la maggior parte del lavoro non sia affatto correlata alla scienza dei dati. È preciso? A mio avviso, Data Science non può tirarsi fuori dal wrangling dei dati. Ma, come hai detto, la domanda verrebbe su quanta percentuale di Data Wrangling è richiesta da un Data Scientist. Dipende dalla larghezza di banda delle organizzazioni e dall'interesse della persona a svolgere tale lavoro. Nella mia esperienza da 15 a 16 anni come DS, ho sempre speso dal 60% al 70% circa nell'attività di wrangling dei dati e ho trascorso un massimo del 15% del tempo in analisi reali. quindi prendi la tua chiamata.

2) So che questa non è una società guidata dai dati con un dipartimento di ingegneria dei dati di alto livello, ma è mia opinione che la scienza dei dati richieda livelli minimi di accessibilità dei dati. Ho sbagliato? Ancora una volta dipende dalle politiche di sicurezza dell'organizzazione. Non possono lasciarti tutto e hanno i loro problemi di sicurezza per rivelare i dati a una persona che è un dipendente temporaneo (mi dispiace usare queste parole :-()

3) Questo tipo di installazione è comune per un'azienda con gravi esigenze di scienza dei dati? Ritengo che questo tipo di aziende richieda la massima attenzione da parte degli scienziati dei dati per far sì che la modellazione basata sui dati sia il futuro per sostenere la propria attività. :-)

Ho dato il mio contributo pensando alle imprese anziché a punti tecnici. :-) Spero di essere chiaro nella mia scelta di parole.


3

Nel suo discorso "I Big Data sono quattro diversi problemi", il vincitore del premio Turing Michael Stonebraker menziona questo particolare problema come un grosso problema ( video , diapositive )

Dice che ci sono una serie di problemi aperti in questo settore: Ingest, Transform (ad esempio euro / dollaro), Clean (ad esempio-99 / Null), Mappatura dello schema (ad esempio salari / stipendio), Consolidamento di entità (ad esempio Mike Stonebraker / Michael Stonebreaker)

Esistono numerose aziende / prodotti che cercano di risolvere questo problema come Tamr, Alteryx, Trifacta, Paxata, Google Refine che lavorano per risolvere questo problema.

Fino a quando non maturerà quest'area, gran parte del lavoro svolto dai data scientist sarà in effetti una discussione sui dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.