Applicazione per fogli di calcolo in grado di gestire i Big Data OS X


2

Ho lavorato con Excel per un po 'di tempo per alcune analisi statistiche che faccio regolarmente. Tuttavia, le dimensioni dei dati con cui sto lavorando sono diventate molto più grandi. Il layout dei database in questione è piuttosto semplice, di solito solo tre righe che include un timestamp UNIX e un valore EST, un valore numerico proprietario e infine una media delle righe che hanno un timestamp +/- 1000 il timestamp di quella riga (piccolo AVERAGEIFS() formula). Quella formula e la conversione EST sono le uniche formule nel foglio.

Sto iniziando a lavorare con file con oltre 500.000 righe. L'esecuzione della formula media per l'intera riga dura per sempre. Il risultato finale è la produzione di grafici degni di nota. Sto cercando una utility UNIX CL o un'applicazione separata per fogli di calcolo / database in grado di gestire questa quantità di dati senza sciogliere la mia CPU o farmi aspettare un'ora. C'è qualcosa là fuori?

TL; DR: Un foglio excel semplice con oltre mezzo milione di righe sta diventando troppo lento per funzionare. OS X alternative?


La tua domanda simile ha risposto in SO: stackoverflow.com/a/11387240/1248931
andy holaday

Per favore non sprecare il nostro tempo con domande in due aree. Chiedilo in uno. Se questo risulta essere il posto sbagliato, segnalalo e chiedi a un moderatore di migrarlo.
Julian Knight

@ JulianKnight Se hai guardato le specifiche di entrambe le domande, sono intrinsecamente diverse. Grazie per il suggerimento comunque.
Peter Kazazes

Hmm, ho guardato l'altra domanda ma in realtà, le risposte sembrano essere correlate. Penso solo che sarebbe stato meglio avere una sola domanda come questa e rispondere a un'altra domanda se fossero necessari ulteriori chiarimenti o una domanda leggermente diversa.
Julian Knight

Risposte:


1

Vedrei se è possibile farlo in un database tradizionale (SQL o simile) o in qualcosa di simile a una console R. Se il problema è nel tracciamento, e non nel calcolo, proverei a fare qualche tipo di filtraggio (non sono sicuro che tipo di dati hai, o come è distribuito, ma in ogni caso non hai bisogno di 500k + punti dati su un grafico) per sbarazzarsi di molti punti dati non necessari per la trama. Questo renderà il tracciamento più veloce (e puoi usare R o gnuplot per il disegno reale se Excel è troppo lento)


Ultimamente ho svolto parte del lavoro in R a causa della sua efficienza. L'unico problema che ho avuto nella mia ricerca di un sostituto per Excel è la ricerca di un foglio di calcolo o alternativa al database in grado di gestire le formule di matrice.
Peter Kazazes

Sono d'accordo con la risposta - è necessario passare a un database. Qualcosa come MySQL o Postgres farebbe il lavoro. Ovviamente, questo significa che dovrai imparare anche qualche SQL. La formula che stai utilizzando può certamente essere sostituita da alcuni SQL. Dopo aver impostato e provato, potresti sempre tornare indietro e fare una domanda leggermente diversa sull'SQL richiesto!
Julian Knight

Meno probabile che sia utile, ma vale la pena menzionare Google Refine. Gestisce facilmente grandi set di dati, ma è più focalizzato sul miglioramento e la segmentazione dei dati. Tuttavia, supporta Elaborazione Python
Julian Knight

@ JulianKnight, penso che google refine sia molto interessante, ma si tratta di un caso di cattiva utilità (a mio avviso). È pensato per l'analisi e la modifica dei dati piuttosto che per il calcolo.
soandos

@soandos: Sono d'accordo su Refine, volevo solo menzionarlo nel caso in cui si rivelasse utile. Non ho guardato prima la R, sembra interessante, specialmente la GU della Red-R. Mi interessa anche ora in IPython poiché conosco già Python, questo potrebbe essere uno strumento utile per me.
Julian Knight
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.