1
Apache Spark: impatto di ripartizionamento, ordinamento e memorizzazione nella cache su un join
Sto esplorando il comportamento di Spark quando mi unisco a un tavolo. Sto usando Databricks. Il mio scenario fittizio è: Leggi una tabella esterna come dataframe A (i file sottostanti sono in formato delta) Definire il frame di dati B come frame di dati A con solo determinate colonne selezionate …