Domande taggate «rdd»


13
Spark - repartition () vs coalesce ()
Secondo Learning Spark Tieni presente che il ripartizionamento dei dati è un'operazione abbastanza costosa. Spark ha anche una versione ottimizzata di repartition()chiamato coalesce()che consente di evitare lo spostamento dei dati, ma solo se si sta diminuendo il numero di partizioni RDD. Una differenza che ottengo è che con repartition()il numero …


2
Spark performance per Scala vs Python
Preferisco Python rispetto alla Scala. Ma, poiché Spark è scritto in modo nativo in Scala, mi aspettavo che il mio codice funzionasse più velocemente in Scala rispetto alla versione Python per ovvie ragioni. Con questo presupposto, ho pensato di imparare e scrivere la versione Scala di alcuni codici di preelaborazione …



3
Apache Spark: map vs mapPartitions?
Qual è la differenza tra un RDD map e il mapPartitionsmetodo? E si flatMapcomporta come mapo piace mapPartitions? Grazie. (modifica) ovvero qual è la differenza (sia semanticamente che in termini di esecuzione) tra def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.