Sono in procinto di prepararmi a tenere un corso introduttivo sulla scienza dei dati utilizzando il linguaggio di programmazione R. Il mio pubblico è composto da studenti universitari che si specializzano in materie commerciali. Un tipico studente universitario non ha alcuna esperienza di programmazione informatica, ma ha preso alcune classi che usano Excel.
Personalmente, mi sento molto a mio agio con R (o altri linguaggi di programmazione) perché mi sono laureato in informatica. Tuttavia, ho la sensazione che molti dei miei studenti si sentano diffidenti nell'apprendimento di un linguaggio di programmazione perché può sembrare difficile per loro.
Ho una certa familiarità con Excel ed è mia convinzione che mentre Excel può essere utile per la semplice scienza dei dati, è necessario che gli studenti imparino un linguaggio di programmazione serio per la scienza dei dati (ad esempio, R o Python). Come posso convincere me stesso e gli studenti che Excel non è sufficiente per uno studente serio che studia scienza dei dati e che è necessario che imparino un po 'di programmazione?
Modificato in risposta al commento
Ecco alcuni degli argomenti che tratterò:
- Elaborazione e pulizia dei dati
- Come manipolare una tabella di dati, ad esempio, selezionare un sottoinsieme di righe (filtro), aggiungere nuove variabili (mutazione), ordinare le righe per colonne
- Join SQL mediante il pacchetto dplyr
- Come disegnare grafici (grafici a dispersione, grafici a barre, istogrammi ecc.) Usando il pacchetto ggplot2
- Come stimare e interpretare modelli statistici come regressione lineare, regressione logistica, alberi di classificazione e k-vicini più vicini
Poiché non conosco molto bene Excel, non so se tutte queste attività possano essere eseguite facilmente in Excel.