I data scientist usano Excel?


37

Mi considererei uno scienziato dei dati del giornalista. Come la maggior parte (penso), ho realizzato le mie prime classifiche e fatto le mie prime aggregazioni al liceo e al college, usando Excel. Mentre attraversavo l'università, la scuola di specializzazione e ~ 7 anni di esperienza lavorativa, ho rapidamente raccolto quelli che considero strumenti più avanzati, come SQL, R, Python, Hadoop, LaTeX, ecc.

Stiamo intervistando per una posizione di data scientist e un candidato si pubblicizza come "senior data scientist" (un termine molto vivace in questi giorni) con oltre 15 anni di esperienza. Quando gli è stato chiesto quale fosse il suo set di strumenti preferito, ha risposto che era Excel.

Ho preso questo come prova che non era così esperto come avrebbe affermato il suo curriculum, ma non ne ero sicuro. Dopotutto, solo perché non è il mio strumento preferito, non significa che non sia altre persone. I data scientist esperti usano Excel? Puoi presumere una mancanza di esperienza da parte di qualcuno che utilizza principalmente Excel?


La maggior parte degli annunci di lavoro di data science richiede competenze specifiche, come R, Hadoop, qualunque cosa. Hai dimenticato di menzionarlo nel tuo annuncio? A meno che il tuo nuovo scienziato di dati non lavorerà in una bolla, allora dovrà lavorare con il team e probabilmente dovrà lavorare con il software standard del team ...
Spacedman

1
bene, se non lo useranno, non \LaTeX{}li assumerei.
sto

1
@Spacedman: ho fornito la storia per un contesto aneddotico, ma sono molto più interessato alle opinioni delle persone su Excel di quanto non stia assumendo suggerimenti. Il nostro team è libero di usare qualunque strumento ci piaccia.
JHowIX,

1
Sì, vedi qui . Per lo scherzo compromesso, vedi anche qui .
Dirk Eddelbuettel,

1
Indipendentemente dagli anni specificati, mi aspetto un elenco Pro / Con di almeno tre strumenti da uno scienziato di dati. Devono mostrare la capacità di indagare, ponderare le opzioni e comunicare le risoluzioni. Anche, o soprattutto, in un'intervista, mi aspetto di vedere un vero coinvolgimento e la capacità di espandersi oltre una domanda di intervista potenzialmente grande, ma attualmente carente.
Dave,

Risposte:


28

La maggior parte delle persone non tecniche utilizza spesso Excel come sostituto del database. Penso che sia sbagliato ma tollerabile. Tuttavia, qualcuno che si suppone abbia esperienza nell'analisi dei dati semplicemente non può usare Excel come suo strumento principale (escluso l'ovvio compito di guardare i dati per la prima volta). Questo perché Excel non è mai stato progettato per questo tipo di analisi e, di conseguenza, è incredibilmente facile commettere errori in Excel (ciò non significa che non sia incredibilmente facile commettere un altro tipo di errori quando si usano altri strumenti, ma Excel aggrava ulteriormente la situazione.)

Per riassumere ciò che Excel non ha ed è un must per qualsiasi analisi:

  1. Riproducibilità. Un'analisi dei dati deve essere riproducibile.
  2. Controllo della versione. Buono per la collaborazione e anche per la riproducibilità. Invece di usare xls, usa csv (ancora molto complesso e ha molti casi limite, ma i parser CSV sono abbastanza buoni al giorno d'oggi.)
  3. Testing. Se non si hanno test, il codice è rotto. Se il tuo codice è rotto, la tua analisi è peggio che inutile.
  4. Manutenibilità.
  5. Precisione. Precisione numerica, analisi accurata della data, tra gli altri, mancano davvero in Excel.

Altre risorse:

Gruppo di interesse sui rischi per fogli di calcolo europei - Storie horror

Non dovresti usare un foglio di calcolo per lavori importanti (intendo)

Excel di Microsoft potrebbe essere il software più pericoloso del pianeta

Distruggi i tuoi dati usando Excel con questo strano trucco!

I fogli di calcolo di Excel sono difficili da ottenere correttamente


Per guardare i dati e analizzarli rapidamente, ci sono strumenti ampiamente accettati dai professionisti come comparabili ma migliori di Excel? Sono uno scienziato di dati per principianti e ho usato principalmente (Postgre) SQL, ma qualcosa come Excel può essere più veloce con cui lavorare se stai solo provando qualcosa.
sudo,

1
Inoltre, devo lamentarmi del fatto che CSV non è uno standard. Devi davvero assicurarti che tutto ciò che lo sta aprendo sia in accordo con ciò che lo ha prodotto. OpenOffice fa nel modo giusto e ti consente di scegliere molte opzioni CSV quando carichi piuttosto che assumere qualsiasi cosa sul formato.
sudo,

@sudo Gli strumenti dipendono dal tuo linguaggio di programmazione preferito, che è principalmente una preferenza personale. Giusto per fare alcuni esempi, R è stata storicamente una buona scelta, Python è cresciuta in popolarità per l'analisi dei dati negli ultimi anni, Julia è una novità molto promettente nel settore. La maggior parte dei linguaggi di programmazione fornisce librerie mature che offrono strutture (ad es. Frame di dati) particolarmente adatte all'analisi dei dati e tutte sono migliori di Excel. CSV è stato standardizzato ma ci sono dettagli che sono implementati in modo diverso, ma questo non dovrebbe essere un grosso problema nel tuo lavoro quotidiano.
Robert Smith,

Uso Python per l'elaborazione della luce, ma in realtà non serve agli scopi di Excel. Ad esempio, in Excel, puoi utilizzare strumenti come il filtro automatico e i grafici interattivi. Di solito invio i miei dati a un CSV per i miei superiori per guardare in Excel o qualcosa del genere.
sudo,

@sudo Allora vuoi Panda. Pandas offre molti metodi per manipolare i tuoi dati. Ciò include il sottoimpostazione basato su indice, colonne o condizioni, che è molto più flessibile e potente rispetto al filtro automatico. Quindi è possibile tracciare il risultato ( df.plot()) ed esportare l'output in csv ( df.to_csv('output.csv')). Tieni presente che le analisi dei dati di solito richiedono molto di più del filtraggio e della stampa. Pertanto, l'attenzione dovrebbe essere rivolta alla correttezza, quindi è necessario separare la presentazione dall'analisi. Esegui le tue analisi in Python (o in altre lingue), condividi i tuoi output in csv se è quello che vuoi.
Robert Smith,

15

I data scientist esperti usano Excel?

Ho visto alcuni data scientist esperti, che usano Excel, sia per le loro preferenze, sia per le specifiche del loro ambiente di lavoro e dell'ambiente IT (ad esempio, molti istituti finanziari usano Excel come strumento principale, almeno per la modellazione). Tuttavia, ritengo che i data scientist più esperti riconoscano la necessità di utilizzare strumenti ottimali per compiti specifici e aderire a questo approccio.

Puoi presumere una mancanza di esperienza da parte di qualcuno che utilizza principalmente Excel?

No, non puoi. Questo è il corollario dei miei pensieri sopra menzionati. La scienza dei dati non implica automaticamente i big data - c'è un sacco di lavoro di data science che Excel può gestire abbastanza bene. Detto questo, se uno scienziato di dati (anche esperto) non ha conoscenza (almeno di base) dei moderni strumenti di scienza dei dati, compresi quelli focalizzati sui big data, è alquanto inquietante. Questo perché la sperimentazione è profondamente radicata nella natura della scienza dei dati a causa dell'analisi dei dati esplorativi che è una parte essenziale e persino cruciale di essa. Pertanto, una persona, che non ha il bisogno di esplorare altri strumenti all'interno del proprio dominio, potrebbe classificarsi più in basso tra i candidati nella posizione generale per una posizione di data science (ovviamente, questo è piuttosto confuso, poiché alcune persone sono molto veloci nell'apprendimento nuovo materiale, più,

Pertanto, in conclusione, penso che la migliore risposta che uno scienziato esperto di dati potrebbe avere a una domanda in merito al suo strumento preferito è la seguente: il mio strumento preferito è quello ottimale, quello che si adatta meglio al compito da svolgere.


5
Non avrei mai criticato qualcuno per non conoscere Hadoop ma anche in situazioni di piccoli dati mi sento come se R fosse superiore. Esistono semplicemente una miriade di cose che puoi fare con R che non puoi fare con Excel. Mi preoccupa che questo individuo non abbia "scoperto" che nei suoi oltre 15 anni
JHowIX il

@JHowIX: hai familiarità con il termine "abbastanza buono"? Sono anche un grande fan di R e lo preferirei a molti strumenti, Excel incluso, ogni giorno. Tuttavia, il fatto che R possa fare di più non implica che Excel (o qualsiasi altro strumento adatto a un'attività) sia inferiore in un particolare contesto di lavoro. Quindi, mentre la tua preoccupazione è valida (mi riferisco a ciò usando la parola "inquietante"), potrebbe essere che la persona non abbia avuto l'opportunità / necessità di farlo. Ricorda che stai parlando del tempo, quando esisteva la R, ma era popolare soprattutto nel mondo accademico e la scienza dei dati (definita analisi dei dati o simili) non era così calda come oggi.
Aleksandr Blekh,

13

Penso che molte persone rispondano senza avere una buona conoscenza di Excel. Excel (dal 2010) ha un database [multi table] colonnare in memoria, chiamato power pivot (che consente l'input da csv / database ecc.), Che consente di memorizzare milioni di righe (non deve essere caricato su un foglio di calcolo) . Ha anche uno strumento ETL chiamato power query che consente di leggere i dati da una varietà di fonti (incluso hadoop). E ha uno strumento di visualizzazione (power view e power map). Un sacco di Data Science sta facendo aggregazione e analisi top-n in cui eccelle il pivot di potenza. Aggiungete a ciò la natura interattiva di questi strumenti: qualsiasi utente può facilmente trascinare e rilasciare una dimensione sulla quale suddividere i risultati e spero che possiate vedere i vantaggi. Quindi sì, non puoi fare l'apprendimento automatico,


Interessante. Sono abituato alle cose lente e buggy che sono Excel 1998-2008. Devo provare quelli più recenti.
sudo,

Vorrei poter approvare la risposta di seanv507 un milione di volte. La maggior parte delle risposte qui mostra che molte persone non sono consapevoli di quanto siano potenti le versioni più recenti di Excel. E tieni presente che quando usi i nuovi strumenti di analisi dei dati (ad es. Power query, power pivot, DAX) non sei più limitato a 1, 048, 576 righe di dati e una serie di altre limitazioni senza questi strumenti
maze55555

Le persone senza un background aziendale non usano Excel. Periodo. E considerando che i laureati non vanno di solito nella scienza dei dati, puoi capire l'ignoranza.
NoName,

5

Nel suo libro Data Smart, John Foreman risolve i problemi di scienza dei dati comuni (clustering, baying ingenui, metodi di ensemble, ...) utilizzando Excel. In effetti è sempre bene avere una certa conoscenza di Python o R, ma immagino che Excel possa ancora fare la maggior parte del lavoro!


2
In realtà, sono rimasto piuttosto sorpreso da me stesso quando ho letto il libro che potresti fare così tanto con Excel. E che aveva incorporato solutori evolutivi e non lineari! Un bel vantaggio di Excel è che il tuo lavoro, specialmente se sei in codice riproducibile, è accessibile a più persone rispetto al codice R o Python.
Victor Ma

5

Sono sorpreso da quante persone sono attaccate alla freddezza della professione piuttosto che all'effettivo lavoro da svolgere. Excel è uno strumento eccellente, con Powerpivot gratuito, Powerquery, può fare molto. (questi non sono disponibili su OS X). E se conosci VBA, puoi fare delle cose carine. E poi se aggiungi ulteriori conoscenze su Python puoi combinare i primi passi dell'estrazione e della manipolazione dei dati con Python e quindi utilizzare Excel, specialmente se sei una persona visiva. Con Excel puoi davvero ispezionare i dati aggregati prima di inserire altri processi o visualizzazioni. È uno strumento indispensabile.


4

Excel consente solo dati molto piccoli e non ha nulla di sufficientemente utile e flessibile per l'apprendimento automatico o anche solo per la stampa. Tutto quello che farei in Excel, è fissare un sottoinsieme dei dati per una prima occhiata ai valori per assicurarmi di non perdere nulla di visibile a occhio.

Quindi, se il suo strumento preferito è Excel, ciò potrebbe suggerire che raramente si occupa di apprendimento automatico, statistiche, dimensioni di dati più grandi o qualsiasi tracciamento avanzato. Qualcuno come questo non definirei un Data Scientist. Ovviamente i titoli non contano e dipende molto dalle tue esigenze.

In ogni caso, non dare un giudizio in base a dichiarazioni di esperienza o CV. Ho visto CV e conosciuto le persone dietro di esso.

Non dare per scontato Mettilo alla prova! Dovresti essere abbastanza bravo da impostare un test. È stato dimostrato che le interviste da sole sono quasi inutili per determinare le abilità (mostrano solo personalità). Imposta un test di apprendimento supervisionato molto semplice e lascia che utilizzi qualsiasi strumento desideri.

E se vuoi prima esaminare le persone durante un colloquio, chiedigli di approfondimenti basilari ma importanti sulle statistiche o sull'apprendimento automatico. Qualcosa che ogni singolo dei tuoi attuali dipendenti conosce.


2

Vorrei prima chiarire che sto iniziando il mio viaggio nella scienza dei dati dal punto di vista del programmatore e dello sviluppatore di database. Non sono un esperto di scienza dei dati di 10 anni né un dio statistico. Tuttavia, lavoro scienziato di dati e set di dati di grandi dimensioni per un'azienda che lavora con clienti piuttosto grandi in tutto il mondo.

In base alla mia esperienza, il data scientist utilizza gli strumenti di cui ha bisogno per svolgere il proprio lavoro. Excel, R, SAS, Python e altri sono tutti strumenti in una cassetta degli attrezzi per un buon scienziato di dati. I migliori possono utilizzare un'ampia varietà di strumenti per analizzare e sgretolare i dati.

Pertanto, se ti trovi a confrontare R con Python, probabilmente stai sbagliando tutto nel mondo della scienza dei dati. Un buon scienziato di dati usa entrambi quando ha senso usare l'uno sull'altro. Questo vale anche per Excel.

Penso che sia piuttosto difficile trovare qualcuno che abbia esperienza in così tanti strumenti e linguaggi diversi pur essendo bravo in tutto. Penso anche che sarà difficile trovare nello specifico uno scienziato di dati che non solo possa programmare algoritmi complessi ma anche sapere come usarli anche dal punto di vista statistico.

La maggior parte del data scientist con cui ho lavorato arriva in circa 2 versioni. Quelli che possono programmare e quelli che non possono. Lavoro raramente con il data scientist che può estrarre i dati in Python, manipolarli con qualcosa come Pandas, adattare un modello ai dati in R e quindi presentarli al management alla fine della settimana.

Voglio dire, so che esistono. Ho letto molti blog sulla scienza dei dati di ragazzi che sviluppano web scrapper, lo inseriscono in Hadoop, lo ritraggono in Python, programmano cose complesse e lo eseguono tramite R all'avvio. Loro esistono. Sono là fuori. Non ne ho mai incontrati troppi che possono fare tutto questo. Forse è solo la mia zona però?

Quindi, significa solo specializzarsi in una cosa cattiva? No. Molti miei amici si specializzano in una sola lingua principale e la uccidono. Conosco un sacco di dati, ragazzi che conoscono solo R e lo uccidono. Conosco anche un sacco di persone che usano Excel per analizzare i dati perché è l'unica cosa che la maggior parte degli scienziati non dati può aprire e utilizzare (specialmente nelle aziende B2B). La domanda a cui devi veramente rispondere è se questa cosa è l'unica cosa di cui hai bisogno per questa posizione? E, soprattutto, possono imparare cose nuove?

PS

Data Science non è solo limitato a "BIG DATA" o NoSQL.


Ciao Glen, grazie per i tuoi commenti. Dai un'occhiata al seguente link. È di Swami Chandrasekaran che ha guidato il team Watson di IBM, quindi secondo me un esperto di dati piuttosto esperto. Ha la programmazione come fondamentalmente la terza cosa che uno scienziato di dati deve sapere, dietro "Fondamenti" e Statistica. Secondo la sua tabella di marcia, una volta che sai come programmare, sei il 15% del modo di diventare uno scienziato di dati. Sulla base di ciò, potrei essere in disaccordo con l'affermazione secondo cui i veri scienziati dei dati hanno un sapore "non programmatore". nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX

Bene, lo dico solo in base all'esperienza. La maggior parte dei corsi di statistica e di scienza dei dati non copre nemmeno la programmazione al di fuori di ciò di cui hai bisogno per i popolari programmi statistici. Per questo motivo, la maggior parte dei ragazzi che ho incontrato nel mondo delle statistiche non sono bravi a programmare. È come un ripensamento quando entrano nel mondo reale e si rendono conto che aiuta.
Glen Swan,

1

Excel può essere uno strumento eccellente per l'analisi dei dati esplorativi, dipende davvero dalle tue esigenze e ovviamente ha i suoi limiti come qualsiasi altro strumento, ma Excel merita sicuramente un posto nella hall of fame della scienza dei dati.

Vale la pena ricordare che in pratica la maggior parte degli utenti esplorerà comunque un set di dati fortemente ridotto (creato da una query SQL).

Excel è potente per esplorare i dati quando si utilizza l'oggetto "table" in combinazione con le tabelle pivot, la visualizzazione è al massimo di 1-2 clic e molti grafici Excel in powerpoint sembrano fantastici, a meno che non si desideri creare qualcosa di molto personalizzato, ad es. contesto di calcolo scientifico. La natura interattiva significa che puoi esplorare rapidamente.

I vantaggi dell'oggetto "table" sono che mentre trasformate ulteriormente i dati in Excel per consentirvi di esplorare nuove distribuzioni, tutte le tabelle pivot ricordano la variabile.

Dove excel è debole è che l'elenco delle formule è probabilmente limitante, ad esempio un'istruzione case SQL o una istruzione python è molto più flessibile di una catena infinita di funzioni if.

Dipende davvero dalle tue esigenze, ma Excel merita sicuramente un posto nella hall of fame della scienza dei dati.

Un aneddoto interessante, la squadra che lavora con l'algoritmo di newsfeed di Facebook può essere vista giocare regolarmente con Excel e molti fogli di calcolo.


0

Insegno a un corso di Business Analytics che include SQL ed Excel. Insegno in una scuola di affari, quindi i miei studenti non sono i più capaci tecnicamente, motivo per cui non ho usato qualcosa come R, Panda o Weka. Detto questo, Excel è uno strumento abbastanza potente da utilizzare per alcune analisi dei dati. Ottiene la maggior parte di questo potere dalla sua capacità di fungere da front-end per SQL Server Analysis Services (un componente di SQL Server per l'analisi dei dati) utilizzando il componente aggiuntivo Data Mining.

SSAS ti consente di costruire alberi decisionali, eseguire regressioni lineari e logistiche e persino creare reti bayesiane o neurali. Ho scoperto che l'uso di Excel come front-end è un approccio meno minaccioso per fare questo tipo di analisi poiché hanno già usato Excel in precedenza. Il modo di utilizzare SSAS senza Excel è tramite una versione specializzata di Visual Studio e non è lo strumento più intuitivo disponibile. Quando lo si combina con alcuni altri strumenti di Excel come Power Query e Power Pivot, si è in grado di eseguire analisi piuttosto sofisticate dei dati.

Full Disclosure, probabilmente non lo userò di nuovo quando insegnerò la nuova versione del corso l'anno prossimo (lo stiamo dividendo in due corsi in modo che uno possa concentrarsi maggiormente sull'analisi dei dati). Ma è solo perché l'università è stata in grado di ottenere abbastanza licenze per Alteryx, che è ancora più facile da usare e più potente, ma costa $ 4-85k / utente / anno se non riesci a ottenere gratuitamente in qualche modo. Dì quello che vuoi su Excel, ma batte quel prezzo.


0

Excel può essere uno strumento eccellente. Certo, a seconda di ciò che fai, potrebbe non adattarsi al conto ma se lo fa, sarebbe quasi sciocco respingerlo. Mentre ci vuole un po 'di tempo per impostare la pipeline, in Excel puoi andare praticamente a correre: UI integrata, facile estensibilità tramite VBA anche con Python (ad esempio https://www.xlwings.org ). Potrebbe non essere l'ideale quando si tratta di cose come il controllo delle versioni, ma ci sono modi per farlo funzionare con Git (ad esempio https://www.xltrail.com/blog/auto-export-vba-commit-hook ).


-2

Questa persona lavora con "Big Data" e usa principalmente Excel? Sul serio?!?! Excel gestisce solo fino a 1, 048, 576 righe di dati in un singolo foglio di calcolo. Per i set di dati oltre a ciò ha bisogno di un plugin. Anche le tabelle pivot in Excel hanno forti restrizioni sull'analisi che può essere eseguita usando loro.

Quali tipi di attività di analisi dei dati dovrebbero essere eseguite nel lavoro per il quale stai reclutando?

Ti suggerisco di condurre interviste che includano test del tipo di compiti che dovranno essere svolti nel lavoro in esame. Senza violare la riservatezza, la privacy o la protezione dei dati, l'attività di programmazione o analisi dei dati impostata come parte del colloquio dovrebbe includere un sottoinsieme (pseudonimizzato) di un set di dati relativo al posto per il quale viene intervistato. Altrimenti potresti finire per reclutare qualcuno che è articolato in un colloquio basato sulla conversazione ma che in realtà non è competente nello svolgimento del lavoro effettivo.


Nessuno ha detto "big data". Hanno detto "data scientist". Non tutti i dati sono "big data". Ho lavorato con esperti data scientist che hanno utilizzato R, Python, SQL ed Excel su un unico progetto. Non tutte le analisi dei dati sono programmatiche o con script. Come detto altrove, vaghe specifiche di lavoro => diversi tipi di data scientist.
smci,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.