Excel è sufficiente per la scienza dei dati?


10

Sono in procinto di prepararmi a tenere un corso introduttivo sulla scienza dei dati utilizzando il linguaggio di programmazione R. Il mio pubblico è composto da studenti universitari che si specializzano in materie commerciali. Un tipico studente universitario non ha alcuna esperienza di programmazione informatica, ma ha preso alcune classi che usano Excel.

Personalmente, mi sento molto a mio agio con R (o altri linguaggi di programmazione) perché mi sono laureato in informatica. Tuttavia, ho la sensazione che molti dei miei studenti si sentano diffidenti nell'apprendimento di un linguaggio di programmazione perché può sembrare difficile per loro.

Ho una certa familiarità con Excel ed è mia convinzione che mentre Excel può essere utile per la semplice scienza dei dati, è necessario che gli studenti imparino un linguaggio di programmazione serio per la scienza dei dati (ad esempio, R o Python). Come posso convincere me stesso e gli studenti che Excel non è sufficiente per uno studente serio che studia scienza dei dati e che è necessario che imparino un po 'di programmazione?

Modificato in risposta al commento

Ecco alcuni degli argomenti che tratterò:

  • Elaborazione e pulizia dei dati
  • Come manipolare una tabella di dati, ad esempio, selezionare un sottoinsieme di righe (filtro), aggiungere nuove variabili (mutazione), ordinare le righe per colonne
  • Join SQL mediante il pacchetto dplyr
  • Come disegnare grafici (grafici a dispersione, grafici a barre, istogrammi ecc.) Usando il pacchetto ggplot2
  • Come stimare e interpretare modelli statistici come regressione lineare, regressione logistica, alberi di classificazione e k-vicini più vicini

Poiché non conosco molto bene Excel, non so se tutte queste attività possano essere eseguite facilmente in Excel.


Senza sapere cosa c'è nel tuo programma, a questa domanda non è possibile rispondere. Detto questo, dovresti dare un'occhiata a Power Pivot / Data Model in Excel. Al giorno d'oggi puoi facilmente gestire set di dati multi-gigabyte con milioni di righe in Excel ed è veloce.
Gaius,

@Gaius Ho aggiunto alcuni dettagli di ciò che voglio insegnare nel corso
Mi piace scrivere il codice

I tuoi punti 1-4 sono ben supportati dal Modello di dati support.office.com/en-us/article/… - per il punto 5 suggerirei il livello gratuito di AzureML studio.azureml.net
Gaius

AzureML funziona anche con R btw
Gaius il

4
A proposito del tuo ultimo punto - dai un'occhiata al libro "Data Smart" di John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Risposte:


8

Prima di tutto controlla questo post . Ha molte ragioni per cui Excel è inferiore ad altre soluzioni, per quanto riguarda le attività di data science. Inoltre, Excel non è in grado di gestire set di dati di grandi dimensioni (centinaia di migliaia di record, per non parlare di nulla in prossimità di Big Data ), immagini e dati audio.

Excel è utile per semplici compiti riguardanti fogli di calcolo; enfatizza maggiormente la presentazione e la facilità d'uso , pur avendo un supporto minimo per analizzare effettivamente i dati. A meno che tutto quello che vuoi fare sia calcolare semplici misure statistiche (media, media, ecc.) O costruire un modello molto semplice (ad es. Regressione lineare), Excel è inefficiente. Detto questo, il 99% del lavoro che un'azienda deve affrontare per quanto riguarda i dati è abbastanza semplice da essere gestibile tramite Excel.

Tuttavia Data Science si occupa principalmente di regressione, classificazione e modelli complessi che Excel non è in grado di gestire! Se i tuoi studenti vogliono dare un'occhiata alla scienza dei dati, devi insegnare loro uno strumento che sarà loro utile (R, python, ecc.). Queste lingue hanno anche librerie con tonnellate di modelli integrati per "giocare".

Un altro motivo davvero enorme per cui vorrei scegliere queste ultime opzioni è che sono open source . Personalmente ritengo che il software open source dovrebbe essere preferito da un punto di vista educativo a soluzioni proprietarie (questo è anche il motivo per cui suggerisco python e R su Matlab)!


Sono d'accordo con tutto quanto sopra, ma ha detto che sono business major. Perché non insegnare R ma assicurati anche di dimostrare un plug-in R / Excel?
CalZ,

1
"Excel non è in grado di gestire set di dati di grandi dimensioni (centinaia di migliaia di record" <- sì, può farlo facilmente. E può fungere da client per seri back-end come AzureML e PowerBI. Non sono un fan " "così tanto ma mi stupisce vedere persone apparentemente" guidate dai dati "che non conoscono nemmeno gli strumenti di base.
Gaius,

1
E se si trattasse di un set di dati di un milione di righe più migliaia di colonne, sulla stessa macchina "base" (a 16 GB di RAM, i7 ecc), quale soluzione lo aprirebbe più velocemente? Non sto cercando di denigrare Excel, solo un'onesta curiosità. Per quanto ne sappia, non riesco nemmeno ad aprire un set di dati in Excel. RStudio lo legge senza problemi sullo stesso PC.
Rave

7

Ho appena finito con un Master in Business Analytics e ho dovuto affrontare lo stesso problema che stai descrivendo. Fortunatamente sono una persona tecnica e sono stato in grado di insegnare a me stesso R e Python, ma ero bloccato a insegnare al resto della classe come usare R e Python. Le lezioni che ho usato con R / Python sono state ostacolate dalla mancanza di comprensione tecnica da parte degli studenti e così tanto tempo è stato speso per spiegare come aprire R / Python. Le lezioni che seguivano l'altro percorso erano deludenti e poco pratiche. Volevo fare per un progetto di classe qualcosa che alla fine non poteva essere fatto in Excel a causa dei suoi limiti, ma l'insegnante non avrebbe accettato altri strumenti.

Potrebbe non essere qualcosa che puoi fare subito, ma ti consiglio vivamente di provare a convincere il dipartimento a richiedere un corso di programmazione prima di seguire il tuo corso. Data Science e Business Analytics IMHO dovrebbe essere un percorso di laurea interdisciplinare che richiede una buona dose di Informatica, ma fino a quando i programmi non matureranno e il sistema universitario migliorerà potrebbe non accadere per un po '.


Hai detto che "volevi fare per un progetto di classe qualcosa che alla fine non poteva essere fatto in Excel a causa dei suoi limiti". Cosa stavi cercando di fare che non si poteva fare in Excel?
Mi piace scrivere il codice

3

Penso che tu debba insegnare loro un popolare linguaggio di Data Science come Python o R. Excel non li aiuterà in un vero lavoro e non è pratico per scopi di data science. Direi probabilmente che Python sarebbe molto utile per loro nel lungo periodo, e con pacchetti come scikit-learn le tue regressioni e classificazioni possono essere dimostrate in pochissime righe di codice che possono leggere e comprendere più facilmente. Non è sempre facile capire cosa sta facendo R semplicemente leggendolo.

Un altro consiglio: non perdere tempo a forzare i tuoi studenti a impostare un IDE e scaricare i pacchetti necessari, se usi python crea un ambiente virtuale per loro con tutti i pacchetti necessari e imposta un IDE come pycharm (possono ottenere questo e la maggior parte degli altri IDE con una licenza studente / accademica) dove possono quindi sviluppare ed eseguire il loro codice attraverso l'interfaccia utente anziché una console che possono trovare scoraggianti e confusi. Se segui il percorso R, assicurati di avere un IDE come RStudio impostato per loro e assicurati che tutte le installazioni di pacchetti e inclusioni siano incluse nel tuo codice di esempio o siano completamente descritte.


"Excel non li aiuterà in un vero lavoro" è certamente se è quello che usano tutti i loro colleghi. Quali lavori reali nella tua esperienza non usano Excel?
Gaius,

3
Qualsiasi ruolo di Data Science che lavora con grandi quantità di dati, incluso il mio. Quali lavori di DS pensi che utilizzerebbero Excel come strumento principale, per interesse?
Dan Carter,

Vedo dal tuo profilo che sei uno studente? Oh. Questi sono studenti business che seguono un corso in DS. Nelle loro attività lavorative useranno assolutamente Excel come strumento principale.
Gaius,

1
Certo, hai ragione, probabilmente utilizzeranno Excel in un ruolo di tipo aziendale, tuttavia, come ha chiaramente affermato OP, hanno già seguito corsi che coprono Excel. Abbinalo al fatto che Excel non è adeguato per l'industria o la scienza dei dati accademica ed è chiaro che insegnare loro "Excel per la scienza dei dati" non li aiuterà in un vero lavoro, come ho detto. Non puoi insegnare a un uomo (o una donna) a pescare, insegnando loro a parlare francese.
Dan Carter,

E se avessero già seguito dei corsi su Excel? Non trattarti come degli stupidi incapaci di imparare R. Qui non stiamo parlando di Haskell o LISP!
Emre,

2

Come posso convincere me stesso e gli studenti che Excel non è sufficiente per uno studente serio che studia scienza dei dati

Crea in R un enorme data.frame (coppia di file mln e centinaia di colonne), salvalo come .xlsx.

Mostra loro la differenza di tempo nel caricarlo con R e in Excel sulla stessa macchina. Confronta le operazioni statistiche di base tra i due sullo stesso set di dati, anche i grafici.

Punto n. 2-4 nella tua lista possono essere fatti anche in Excel, solo MOLTO più dolorosamente, mostra loro un paio di esempi di quanto sia semplice (e più veloce) filtrare dplyr, rispetto a Excel di base, sempre su un enorme set di dati che evidenzierebbe la differenza.

Punto bonus se riesci a trovare un set di dati che si arresta in modo anomalo sul tuo PC con Excel attivo.

Inoltre, enfatizzerei la parte "free-to-use" di R (o Python). Ad esempio, rispetto a SAS, se si desidera semplicemente provare una soluzione (ovvero una sorta di cluster), si carica la libreria e si prova, non è necessario pagare di più, solo per provare.

Per me è questo il bello, puoi provare gratuitamente tutto ciò di cui hai bisogno, e spesso è la chiave di DS, immagina se dovresti pagare per ogni libreria che installi.


1

Excel e Data Science - mi sembra davvero strano. Forse Excel e "Analisi dei dati".

Comunque, penso che un buon compromesso tra Excel e R sia: KNIME ( http://www.knime.org/knime-analytics-platform ). È gratuito sul desktop e molto più facile da iniziare. È possibile importare / esportare in Excel ma utilizzare anche R, Python o Java se i nodi ~ 1.000 mancano di alcune funzionalità necessarie. Poiché i flussi di lavoro sono creati visivamente, è anche molto più facile mostrarli a qualcuno che non conosce alcun linguaggio di programmazione, il che è piuttosto un vantaggio in alcune aziende.


0

Penso che il problema sia che stai cercando di convincere i tuoi studenti che prendendo la tua classe, possono fare scienza dei dati simile al livello della scienza dei dati moderna, vale a dire cose fantasiose come l'elaborazione delle immagini, il riconoscimento facciale. Senti questo dire la maggior parte delle volte, "prendendo questa lezione, tu ..." Quello che devi insegnare loro è l'amore per i dati e il coraggio di guardare attraverso un mucchio di dati, fare casino con loro per fare un po 'di senso da loro. Nel momento in cui possono farlo, puoi chiamarli data scientist e dovresti sentirti orgoglioso di te per avere una nuova generazione di data scientist. Dopodiché, se prendono molto sul serio la scienza dei dati, possono continuare a seguire altri intensi corsi che si occupano di matematica, statistica e informatica (esperienza di programmazione come hai detto). Ero in una situazione simile ai tuoi studenti. Non avevo esperienza CS ma volevo entrare nella scienza dei dati e nell'intelligenza artificiale prendendo alcune lezioni online con promesse fantasiose. Ho finito per sprecare tonnellate di denaro ma mi sono trovato in un'enorme frustrazione (oh, devo seguire questa classe per conoscere questo algoritmo, oh stanno parlando di reti neurali ora quindi devo iscrivermi all'altra classe, ecc.) TL ; DR. Gli strumenti rappresentano solo l'1% del problema riscontrato. Con il tuo background, non dovresti avere problemi a capire le attività di cui sopra in Excel in una settimana. oh stanno parlando di reti neurali ora quindi devo iscrivermi per l'altra classe, ecc.) TL; DR. Gli strumenti rappresentano solo l'1% del problema riscontrato. Con il tuo background, non dovresti avere problemi a capire le attività di cui sopra in Excel in una settimana. oh stanno parlando di reti neurali ora quindi devo iscrivermi per l'altra classe, ecc.) TL; DR. Gli strumenti rappresentano solo l'1% del problema riscontrato. Con il tuo background, non dovresti avere problemi a capire le attività di cui sopra in Excel in una settimana.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.