Alcuni di voi utilizzano il foglio di calcolo di Google Documenti per condurre e condividere il proprio lavoro statistico con altri?


15

So che molti di voi probabilmente pensano che Google Docs sia ancora uno strumento primitivo. Non è Matlab o R e nemmeno Excel. Tuttavia, sono sconcertato dalla potenza di questo software basato sul web che utilizza solo la capacità operativa di un browser (ed è compatibile con molti browser che funzionano in modo molto diverso).

Mike Lawrence, attivo in questo forum, ha condiviso con noi un foglio di calcolo usando Google Documenti facendo cose piuttosto fantasiose con esso. Personalmente ho replicato un framework di test di ipotesi piuttosto completo (inclusi numerosi test parametrici e non parametrici) originariamente eseguito in Excel in Google Documenti.

Sono interessato se qualcuno di voi ha provato Google Docs e l'ha spinto al limite in applicazioni interessanti. Sono anche interessato a conoscere bug o difetti riscontrati con Google Documenti

Sto designando questa domanda "per wiki della comunità" indicando che non ci sono risposte migliori per questo. È più un sondaggio che altro.


Potresti collegarti al foglio di calcolo fornito da Mike Lawrence?
Andy W


1
I documenti di Google, quando testati formalmente, hanno funzionato miseramente sulla maggior parte dei calcoli statistici (quando potevano farlo affatto). Vedi Kellie B. Keeling e Robert J. Pavur (2011): Accuratezza statistica del software per fogli di calcolo, The American Statistician, 65: 4, 265-273
whuber

Risposte:


12

Il mio uso principale per i fogli di calcolo di Google è stato con i moduli di Google, per raccogliere dati e quindi importarli facilmente in R. Ecco un post che ne ho scritto sei mesi fa:

Fogli di lavoro Google + moduli Google + R = Raccolta e importazione semplici di dati per l'analisi

Inoltre, se ti piace la collaborazione, il mio strumento preferito è DropBox. Ho scritto un post a riguardo qualche mese fa:

Sincronizzazione dei file tra computer tramite DropBox

Lo sto usando da circa sei mesi su un progetto con 5 coautori ed è stato prezioso (sincronizzazione dei file di dati da 3 collaboratori, tutti possono vedere l'ultima versione dell'output che sto producendo e tutti stanno cercando allo stesso file .docx per l'articolo).

Entrambi i post offrono video tutorial e istruzioni verbali.


grazie per il tuo feedback. Questo è il tipo esatto di commenti a cui ero interessato. Hai davvero sfruttato il componente di condivisione e importazione dei documenti di Google. Buon per te. Leggerò il tuo materiale per saperne di più.
Sympa,

Caro Gaetan, sono lieto della tua risposta - grazie per le belle parole. Meglio, Tal.
Tal Galili,

19

In quanto utente appassionato di R, bash, Python, asciidoc, (La) TeX, sofwtare open source o qualsiasi strumento un * x, non posso fornire una risposta obiettiva. Inoltre, poiché spesso discuto contro l'uso di MS Excel o fogli di calcolo di qualsiasi tipo (bene, vedi i tuoi dati o parte di essi, ma cos'altro?), Non contribuirei positivamente al dibattito. Non sono l'unico, ad es

Un mio collega perde tutte le sue macro a causa della mancanza di compatibilità con le versioni precedenti, ecc. Un altro collega ha cercato di importare dati di genetica (circa 700 soggetti genotipizzati su 800.000 marcatori, 120 Mo), solo per "guardarli". Excel fallito, anche Blocco note ha rinunciato ... Sono in grado di "guardarli" con vi e riformattare rapidamente i dati con alcuni script sed / awk o perl. Quindi penso che ci siano diversi livelli da considerare quando si discute dell'utilità dei fogli di calcolo. O lavori su piccoli set di dati e vuoi solo applicare elementi statistici elementari e forse va bene. Quindi, spetta a te fidarti dei risultati, oppure puoi sempre chiedere il codice sorgente, ma forse sarebbe più semplice fare un rapido test di tutte le procedure in linea con il benchmark NIST. Non penso che corrisponda a un buon modo di fare statistiche semplicemente perché questo non è un vero software statistico (IMHO), anche se come aggiornamento dell'elenco sopra menzionato, le nuove versioni di MS Excel sembrano aver dimostrato miglioramenti nella sua precisione per analisi statistiche, vedi Keeling e Pavur, Uno studio comparativo sull'affidabilità di nove pacchetti software statistici ( CSDA 2007 51: 3811).

Tuttavia, circa un documento su 10 o 20 (in biomedicina, psicologia, psichiatria) include grafici realizzati con Excel, a volte senza rimuovere lo sfondo grigio, la linea nera orizzontale o la legenda automatica (Andrew Gelman e Hadley Wickham sono sicuramente felici come me quando lo vedo). Ma più in generale, tende ad essere il "software" più utilizzato secondo un recente sondaggio su FlowingData, che mi ricorda un vecchio discorso di Brian Ripley (che è stato coautore del pacchetto MASS R, e scrive un eccellente libro sul riconoscimento di schemi , tra gli altri):

Non prendiamoci in giro: il software più usato per la statistica è Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Ora, se ritieni che ti fornisca un modo rapido e semplice per ottenere statistiche, perché no? Il problema è che ci sono ancora cose che non possono essere fatte (o almeno, è piuttosto complicato) in un tale ambiente. Penso a bootstrap, permutazione, analisi multivariata di dati esplorativi, per citarne alcuni. A meno che tu non sia molto esperto in VBA (che non è né uno script né un linguaggio di programmazione), sono propenso a pensare che anche le operazioni minori sui dati siano gestite meglio sotto R (o Matlab o Python, fornendo lo strumento giusto per trattare con ad esempio il cosiddetto data.frame). Soprattutto, penso che Excel non promuova ottime pratiche per l'analista di dati (ma si applica anche a qualsiasi "cliquodrome", vedi la discussione su Medstats sulla necessità di mantenere un registro del trattamento dei dati,Documentare analisi e modifiche dei dati ), e ho trovato questo post su Statistiche pratiche relativamente illustrativo di alcune insidie ​​di Excel. Tuttavia, si applica a Excel, non so come si traduca in GDocs.

Per quanto riguarda la condivisione del tuo lavoro, tendo a pensare che Github (o Gist per il codice sorgente) o Dropbox (sebbene l'EULA possa scoraggiare alcune persone) sono ottime opzioni (cronologia delle revisioni, gestione delle sovvenzioni se necessario, ecc.). Non posso incoraggiare l'uso di un software che sostanzialmente memorizza i tuoi dati in un formato binario. So che può essere importato in R, Matlab, Stata, SPSS, ma a mio avviso:

  • i dati dovrebbero essere definitivamente in un formato di testo, che può essere letto da un altro software statistico;
  • l'analisi dovrebbe essere riproducibile, nel senso che dovresti fornire uno script completo per la tua analisi e dovrebbe essere eseguito (ci avviciniamo al caso ideale qui vicino ...) su un altro sistema operativo in qualsiasi momento;
  • il tuo software statistico dovrebbe implementare algoritmi riconosciuti e dovrebbe esserci un modo semplice per aggiornarlo per riflettere le migliori pratiche attuali nella modellistica statistica;
  • il sistema di condivisione scelto dovrebbe includere il controllo delle versioni e le strutture di collaborazione.

Questo è tutto.


@Gaetan A parte la mia risposta, ho dato il mio +1 alla domanda perché penso che sia molto rilevante per il dibattito sulla pratica statistica e sulla gestione dei progetti.
chl

Un commento per il downvote sarebbe molto apprezzato.
chl

@chl: anche se non ho votato a fondo su questa risposta, penso di capire perché si dovrebbe votare a fondo. Le informazioni fornite sono corrette, molto importanti e stimolanti. TUTTAVIA, la maggior parte (tranne gli ultimi due paragrafi) non risponde alla domanda. Idealmente, si dovrebbe scrivere questo ampio disclaimer altrove e dare un collegamento ad esso.
Boris Gorelik,

@chl: nonostante quello che ho detto nel mio commento, adoro la tua risposta e la voterò
Boris Gorelik,

@bgbg Grazie per il tuo commento. Forse non ho risposto alla domanda CW. Tuttavia, non ho mai avuto intenzione di dare una risposta puramente provocatoria. L'OP ha chiesto potenziali "bug e difetti" in GDocs: fornisco illustrazioni su ciò che so da Excel, riconoscendo il fatto che non so come si tradurrebbe in GDocs. Capisco anche parte della domanda come "quali sono i vantaggi dell'utilizzo di GDocs per l'analisi dei dati", e ho appena dato alcune argomentazioni contro l'uso del foglio di calcolo per progetti su larga scala o analisi al limite (ancora, ho riconosciuto al iniziando che questo sarebbe di parte).
chl

10

"Sono anche interessato a conoscere bug o difetti riscontrati con Google Documenti."

Risponderò solo a quella parte della domanda originale. Le mie esplorazioni con i fogli di calcolo di Google Documenti (GSheets) si sono occupate delle funzioni matematiche e statistiche. Alla fine la mia valutazione è che Google Spreadsheets è, a tale riguardo, molto inferiore nel 2012 a Excel diffamato del 1997.

Testimone: Google Sheets apparentemente valuta erfc (x) usando erfc (x) = 1-erf (x) per argomenti per i quali erf (x) è vicino a 1. Valutano una deviazione standard o una varianza in media dei quadrati meno il quadrato della media; è una cattiva pratica numerica. Funzioni combinatorie e probabilità discrete come poisson (n, x) = pow (x, n) * exp (-x) / n! vengono valutati fattore per fattore, causando inutili tracimazione. Il fattoriale viene valutato utilizzando l'approssimazione fattore per fattore di Stirling, causando un ulteriore trabocco inutile. La distribuzione cumulativa di Poisson viene valutata semplicemente facendo la somma finita, quindi la proprietà di normalizzazione viene persa nel arrotondamento; lo stesso vale per la distribuzione binomiale cumulativa. La distribuzione normale cumulativa è completamente incasinata; va oltre l'intervallo [0,1]. Vi è una generale perdita di accuratezza rispetto alle implementazioni delle stesse funzioni in altri pacchetti. Le descrizioni di funzioni elementari come l'arrotondamento sono spesso confuse e incomprensibili; l'interpretazione è un gioco d'ipotesi.

Ho documentato questi problemi in due serie di post sui forum dei prodotti di Google Documenti:

(2011-11-13 e successivi) normdist genera ancora un valore negativo https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(06/05/2012 e versioni successive) Errori e altri problemi con funzioni statistiche e matematiche in GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1) In altre parole, sembra evidente che i ( molti! ) Statistici di Google non siano in alcun modo coinvolti in questo progetto.
cardinale il

L'unica parte di Google Documenti che ho usato è l'editor, che è molto utile per la modifica collaborativa in tempo reale . Non credo che git e gli amici risolvano quel problema!
kjetil b halvorsen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.