Programmazione apache-spark

15

Differenza tra DataFrame, Dataset e RDD in Spark

Mi sto solo chiedendo quale sia la differenza tra an RDDe DataFrame (Spark 2.0.0 DataFrame è un semplice alias di tipo per Dataset[Row]) in Apache Spark? Puoi convertirlo l'uno nell'altro?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - repartition () vs coalesce ()

Secondo Learning Spark Tieni presente che il ripartizionamento dei dati è un'operazione abbastanza costosa. Spark ha anche una versione ottimizzata di repartition()chiamato coalesce()che consente di evitare lo spostamento dei dati, ma solo se si sta diminuendo il numero di partizioni RDD. Una differenza che ottengo è che con repartition()il numero …

254 apache-spark distributed-computing rdd

16

Qual è la differenza tra map e flatMap e un buon caso d'uso per ciascuno?

Qualcuno può spiegarmi la differenza tra map e flatMap e qual è un buon caso d'uso per ciascuno? Che cosa significa "appiattire i risultati"? Per cosa è buono?

249 apache-spark

12

Spark java.lang.OutOfMemoryError: spazio heap Java

Il mio cluster: 1 master, 11 slave, ogni nodo ha 6 GB di memoria. Le mie impostazioni: spark.executor.memory=4g, Dspark.akka.frameSize=512 Ecco il problema: Innanzitutto , ho letto alcuni dati (2,19 GB) da HDFS a RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Secondo , fai qualcosa su questo RDD: val res = imageBundleRDD.map(data => …

228 out-of-memory apache-spark

7

Attività non serializzabile: java.io.NotSerializableException quando si chiama la funzione fuori dalla chiusura solo su classi non oggetti

Ottenere un comportamento strano quando si chiama la funzione al di fuori di una chiusura: quando la funzione è in un oggetto tutto funziona quando la funzione è in una classe ottenere: Attività non serializzabile: java.io.NotSerializableException: testing Il problema è che ho bisogno del mio codice in una classe e …

224 scala serialization apache-spark typesafe

2

Cosa sono i lavoratori, i dirigenti, i nuclei nel cluster Spark Standalone?

Ho letto la panoramica sulla modalità cluster e non riesco ancora a capire i diversi processi nel cluster Spark Standalone e il parallelismo. Il lavoratore è un processo JVM o no? Ho eseguito il bin\start-slave.she ho scoperto che ha generato il lavoratore, che in realtà è una JVM. Secondo il …

219 apache-spark distributed-computing

5

Qual è la differenza tra cache e persist?

In termini di RDDpersistenza, quali sono le differenze tra cache()e persist()in spark?

202 apache-spark distributed-computing rdd

13

Come mostrare il contenuto della colonna completa in un Spark Dataframe?

Sto usando spark-csv per caricare i dati in un DataFrame. Voglio fare una semplice query e visualizzare il contenuto: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Il col sembra troncato: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …

201 apache-spark dataframe spark-csv output-formatting

13

Come modificare i nomi delle colonne dei frame di dati in pyspark?

Vengo dallo sfondo di Panda e sono abituato a leggere i dati dai file CSV in un frame di dati e quindi semplicemente cambiare i nomi delle colonne in qualcosa di utile usando il semplice comando: df.columns = new_column_name_list Tuttavia, lo stesso non funziona nei frame di dati pyspark creati …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: il numero di core rispetto al numero di esecutori

Sto cercando di capire la relazione tra il numero di core e il numero di esecutori durante l'esecuzione di un processo Spark su YARN. L'ambiente di test è il seguente: Numero di nodi di dati: 3 Specifiche della macchina del nodo dati: CPU: Core i7-4790 (N. di core: 4, N. …

195 hadoop apache-spark yarn

20

Come interrompere la visualizzazione dei messaggi INFO sulla Spark Console?

Vorrei fermare vari messaggi che arrivano su Spark Shell. Ho provato a modificare il log4j.propertiesfile per interrompere questo messaggio. Ecco i contenuti di log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that …

181 apache-spark log4j spark-submit

10

Come leggere più file di testo in un singolo RDD?

Voglio leggere un mucchio di file di testo da una posizione hdfs ed eseguire il mapping su di esso in un'iterazione usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); è in grado di leggere solo un file alla volta. Voglio leggere più di un file ed elaborarli come un singolo RDD. …

179 apache-spark

2

Spark performance per Scala vs Python

Preferisco Python rispetto alla Scala. Ma, poiché Spark è scritto in modo nativo in Scala, mi aspettavo che il mio codice funzionasse più velocemente in Scala rispetto alla versione Python per ovvie ragioni. Con questo presupposto, ho pensato di imparare e scrivere la versione Scala di alcuni codici di preelaborazione …

178 scala performance apache-spark pyspark rdd

5

(Perché) dobbiamo chiamare la cache o persistere su un RDD

Quando viene creato un set di dati distribuito (RDD) resiliente da un file di testo o una raccolta (o da un altro RDD), è necessario chiamare "cache" o "persistere" in modo esplicito per memorizzare i dati RDD in memoria? O i dati RDD sono archiviati in modo distribuito nella memoria …

171 scala apache-spark rdd

6

Aggiungi vasetti a un processo Spark - spark-submit

È vero ... è stato discusso parecchio. Tuttavia, vi è molta ambiguità e alcune delle risposte fornite ... tra cui la duplicazione dei riferimenti jar nella configurazione o nelle opzioni di vasetti / esecutore / driver. I dettagli ambigui e / o omessi A seguito di ambiguità, i dettagli non …

158 java scala apache-spark jar spark-submit

Domande taggate «apache-spark»