In quanto utente appassionato di R, bash, Python, asciidoc, (La) TeX, sofwtare open source o qualsiasi strumento un * x, non posso fornire una risposta obiettiva. Inoltre, poiché spesso discuto contro l'uso di MS Excel o fogli di calcolo di qualsiasi tipo (bene, vedi i tuoi dati o parte di essi, ma cos'altro?), Non contribuirei positivamente al dibattito. Non sono l'unico, ad es
- Dipendenza da foglio di calcolo , da P. Burns.
- Precisione e accuratezza di MS Excel , un post sulla mailing list R 2004
- L. Knusel, Sull'accuratezza delle distribuzioni statistiche in Microsoft Excel 97 , Statistiche computazionali e analisi dei dati, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, Sull'accuratezza delle procedure statistiche in Microsoft Excel 2000 ed Excel XP , Statistiche computazionali e analisi dei dati , 40: 713–721, 2002.
- M. Altman, J. Gill e MP McDonald, Numeric Issues in Statistical Computing for the Social Scientist , Wiley, 2004. [es., Pp. 12–14]
Un mio collega perde tutte le sue macro a causa della mancanza di compatibilità con le versioni precedenti, ecc. Un altro collega ha cercato di importare dati di genetica (circa 700 soggetti genotipizzati su 800.000 marcatori, 120 Mo), solo per "guardarli". Excel fallito, anche Blocco note ha rinunciato ... Sono in grado di "guardarli" con vi e riformattare rapidamente i dati con alcuni script sed / awk o perl. Quindi penso che ci siano diversi livelli da considerare quando si discute dell'utilità dei fogli di calcolo. O lavori su piccoli set di dati e vuoi solo applicare elementi statistici elementari e forse va bene. Quindi, spetta a te fidarti dei risultati, oppure puoi sempre chiedere il codice sorgente, ma forse sarebbe più semplice fare un rapido test di tutte le procedure in linea con il benchmark NIST. Non penso che corrisponda a un buon modo di fare statistiche semplicemente perché questo non è un vero software statistico (IMHO), anche se come aggiornamento dell'elenco sopra menzionato, le nuove versioni di MS Excel sembrano aver dimostrato miglioramenti nella sua precisione per analisi statistiche, vedi Keeling e Pavur, Uno studio comparativo sull'affidabilità di nove pacchetti software statistici ( CSDA 2007 51: 3811).
Tuttavia, circa un documento su 10 o 20 (in biomedicina, psicologia, psichiatria) include grafici realizzati con Excel, a volte senza rimuovere lo sfondo grigio, la linea nera orizzontale o la legenda automatica (Andrew Gelman e Hadley Wickham sono sicuramente felici come me quando lo vedo). Ma più in generale, tende ad essere il "software" più utilizzato secondo un recente sondaggio su FlowingData, che mi ricorda un vecchio discorso di Brian Ripley (che è stato coautore del pacchetto MASS R, e scrive un eccellente libro sul riconoscimento di schemi , tra gli altri):
Non prendiamoci in giro: il software più usato per la statistica è Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Ora, se ritieni che ti fornisca un modo rapido e semplice per ottenere statistiche, perché no? Il problema è che ci sono ancora cose che non possono essere fatte (o almeno, è piuttosto complicato) in un tale ambiente. Penso a bootstrap, permutazione, analisi multivariata di dati esplorativi, per citarne alcuni. A meno che tu non sia molto esperto in VBA (che non è né uno script né un linguaggio di programmazione), sono propenso a pensare che anche le operazioni minori sui dati siano gestite meglio sotto R (o Matlab o Python, fornendo lo strumento giusto per trattare con ad esempio il cosiddetto data.frame). Soprattutto, penso che Excel non promuova ottime pratiche per l'analista di dati (ma si applica anche a qualsiasi "cliquodrome", vedi la discussione su Medstats sulla necessità di mantenere un registro del trattamento dei dati,Documentare analisi e modifiche dei dati ), e ho trovato questo post su Statistiche pratiche relativamente illustrativo di alcune insidie di Excel. Tuttavia, si applica a Excel, non so come si traduca in GDocs.
Per quanto riguarda la condivisione del tuo lavoro, tendo a pensare che Github (o Gist per il codice sorgente) o Dropbox (sebbene l'EULA possa scoraggiare alcune persone) sono ottime opzioni (cronologia delle revisioni, gestione delle sovvenzioni se necessario, ecc.). Non posso incoraggiare l'uso di un software che sostanzialmente memorizza i tuoi dati in un formato binario. So che può essere importato in R, Matlab, Stata, SPSS, ma a mio avviso:
- i dati dovrebbero essere definitivamente in un formato di testo, che può essere letto da un altro software statistico;
- l'analisi dovrebbe essere riproducibile, nel senso che dovresti fornire uno script completo per la tua analisi e dovrebbe essere eseguito (ci avviciniamo al caso ideale qui vicino ...) su un altro sistema operativo in qualsiasi momento;
- il tuo software statistico dovrebbe implementare algoritmi riconosciuti e dovrebbe esserci un modo semplice per aggiornarlo per riflettere le migliori pratiche attuali nella modellistica statistica;
- il sistema di condivisione scelto dovrebbe includere il controllo delle versioni e le strutture di collaborazione.
Questo è tutto.