Parquet vs ORC vs ORC con Snappy

Question 1

Sto eseguendo alcuni test sui formati di archiviazione disponibili con Hive e sto utilizzando Parquet e ORC come opzioni principali. Ho incluso ORC una volta con la compressione predefinita e una volta con Snappy.

Ho letto molti documenti che affermano che Parquet è migliore in termini di complessità tempo / spazio rispetto a ORC ma i miei test sono opposti ai documenti che ho seguito.

Di seguito alcuni dettagli dei miei dati.

Table A- Text File Format- 2.5GB

Table B - ORC - 652MB

Table C - ORC with Snappy - 802MB

Table D - Parquet - 1.9 GB

Il parquet era peggiore per quanto riguarda la compressione per il mio tavolo.

I miei test con le tabelle precedenti hanno prodotto i seguenti risultati.

Operazione di conteggio delle righe

Text Format Cumulative CPU - 123.33 sec

Parquet Format Cumulative CPU - 204.92 sec

ORC Format Cumulative CPU - 119.99 sec 

ORC with SNAPPY Cumulative CPU - 107.05 sec

Somma di un'operazione di colonna

Text Format Cumulative CPU - 127.85 sec   

Parquet Format Cumulative CPU - 255.2 sec   

ORC Format Cumulative CPU - 120.48 sec   

ORC with SNAPPY Cumulative CPU - 98.27 sec

Media di un'operazione di colonna

Text Format Cumulative CPU - 128.79 sec

Parquet Format Cumulative CPU - 211.73 sec    

ORC Format Cumulative CPU - 165.5 sec   

ORC with SNAPPY Cumulative CPU - 135.45 sec

Selezione di 4 colonne da un determinato intervallo utilizzando la clausola where

Text Format Cumulative CPU -  72.48 sec 

Parquet Format Cumulative CPU - 136.4 sec       

ORC Format Cumulative CPU - 96.63 sec 

ORC with SNAPPY Cumulative CPU - 82.05 sec

Ciò significa che ORC è più veloce di Parquet? O c'è qualcosa che posso fare per farlo funzionare meglio con il tempo di risposta alle query e il rapporto di compressione?

Grazie!

Question 2

Direi che entrambi questi formati hanno i loro vantaggi.

Parquet potrebbe essere migliore se hai dati molto nidificati, perché memorizza i suoi elementi come un albero come fa Google Dremel ( vedi qui ).
Apache ORC potrebbe essere migliore se la struttura del file fosse appiattita.

E per quanto ne so il parquet non supporta ancora gli indici. ORC viene fornito con un indice leggero e poiché Hive 0.14 un filtro Bloom aggiuntivo che potrebbe essere utile per il miglior tempo di risposta alle query, soprattutto quando si tratta di operazioni di somma.

La compressione predefinita di Parquet è SNAPPY. Le tabelle A - B - C e D contengono lo stesso set di dati? Se sì, sembra che ci sia qualcosa di losco, quando si comprime solo a 1,9 GB

Question 3

Lo vedi perché:

Hive ha un lettore ORC vettorializzato ma non un lettore parquet vettorializzato.
Spark ha un lettore di parquet vettorializzato e nessun lettore ORC vettorializzato.
Spark si comporta meglio con il parquet, hive si comporta meglio con ORC.

Ho riscontrato differenze simili durante l'esecuzione di ORC e Parquet con Spark.

La vettorizzazione significa che le righe vengono decodificate in batch, migliorando notevolmente la località della memoria e l'utilizzo della cache.

(corretto a partire da Hive 2.0 e Spark 2.1)

Question 4

Sia Parquet che ORC hanno i loro vantaggi e svantaggi. Ma cerco semplicemente di seguire una semplice regola pratica: "Quanto sono nidificati i tuoi dati e quante colonne ci sono" . Se segui il Google Dremel puoi scoprire come viene progettato il parquet. Utilizzano una struttura ad albero gerarchica per memorizzare i dati. Più la nidificazione è profonda l'albero.

Ma ORC è progettato per un archivio di file appiattito. Quindi, se i tuoi dati sono appiattiti con meno colonne, puoi andare con ORC, altrimenti il parquet andrebbe bene per te. La compressione sui dati appiattiti funziona in modo sorprendente in ORC.

Abbiamo eseguito alcuni benchmark con un file appiattito più grande, lo abbiamo convertito in Spark Dataframe e lo abbiamo archiviato sia in formato parquet che in formato ORC in S3 e abbiamo eseguito query con ** Redshift-Spectrum **.

Size of the file in parquet: ~7.5 GB and took 7 minutes to write
Size of the file in ORC: ~7.1. GB and took 6 minutes to write
Query seems faster in ORC files.

Presto faremo alcuni benchmark per i dati nidificati e aggiorneremo i risultati qui.

Question 5

Abbiamo eseguito alcuni benchmark confrontando i diversi formati di file (Avro, JSON, ORC e Parquet) in diversi casi d'uso.

https://www.slideshare.net/oom65/file-format-benchmarks-avro-json-orc-parquet

I dati sono tutti disponibili pubblicamente e il codice di benchmark è tutto open source all'indirizzo:

https://github.com/apache/orc/tree/branch-1.4/java/bench

Question 6

Entrambi hanno i loro vantaggi. Usiamo Parquet in collaborazione con Hive e Impala, ma volevamo solo sottolineare alcuni vantaggi di ORC rispetto a Parquet: durante le query a lunga esecuzione, quando Hive interroga le tabelle ORC GC viene chiamato circa 10 volte meno frequentemente . Potrebbe non essere nulla per molti progetti, ma potrebbe essere cruciale per altri.

ORC richiede anche molto meno tempo, quando è necessario selezionare solo poche colonne dalla tabella. Anche alcune altre query, in particolare con i join, richiedono meno tempo a causa dell'esecuzione di query vettorializzate, che non è disponibile per Parquet

Inoltre, la compressione ORC a volte è un po 'casuale, mentre la compressione Parquet è molto più coerente. Sembra che quando la tabella ORC ha molte colonne numeriche, non si comprime anche. Colpisce sia la compressione zlib che quella scattante