Dalla mia interfaccia utente di Spark. Cosa significa saltato?
Risposte:
In genere significa che i dati sono stati recuperati dalla cache e non è stato necessario rieseguire una determinata fase. È coerente con il tuo DAG che mostra che la fase successiva richiede shuffling ( reduceByKey
). Ogni volta che è coinvolto un mescolamento, Spark memorizza automaticamente nella cache i dati generati :
Shuffle genera anche un gran numero di file intermedi su disco. A partire da Spark 1.3, questi file vengono conservati fino a quando gli RDD corrispondenti non vengono più utilizzati e vengono raccolti in modo indesiderato. Questo viene fatto in modo che i file shuffle non debbano essere ricreati se la discendenza viene ricalcolata.