Sto eseguendo alcuni test sui formati di archiviazione disponibili con Hive e sto utilizzando Parquet e ORC come opzioni principali. Ho incluso ORC una volta con la compressione predefinita e una volta con Snappy.
Ho letto molti documenti che affermano che Parquet è migliore in termini di complessità tempo / spazio rispetto a ORC ma i miei test sono opposti ai documenti che ho seguito.
Di seguito alcuni dettagli dei miei dati.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Il parquet era peggiore per quanto riguarda la compressione per il mio tavolo.
I miei test con le tabelle precedenti hanno prodotto i seguenti risultati.
Operazione di conteggio delle righe
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Somma di un'operazione di colonna
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Media di un'operazione di colonna
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Selezione di 4 colonne da un determinato intervallo utilizzando la clausola where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Ciò significa che ORC è più veloce di Parquet? O c'è qualcosa che posso fare per farlo funzionare meglio con il tempo di risposta alle query e il rapporto di compressione?
Grazie!