Domande taggate «apache-spark»

Apache Spark è un motore di elaborazione dati distribuito open source scritto in Scala che fornisce agli utenti un'API unificata e set di dati distribuiti. I casi d'uso di Apache Spark sono spesso correlati a machine / deep learning, elaborazione di grafici.


13
Spark - repartition () vs coalesce ()
Secondo Learning Spark Tieni presente che il ripartizionamento dei dati è un'operazione abbastanza costosa. Spark ha anche una versione ottimizzata di repartition()chiamato coalesce()che consente di evitare lo spostamento dei dati, ma solo se si sta diminuendo il numero di partizioni RDD. Una differenza che ottengo è che con repartition()il numero …


12
Spark java.lang.OutOfMemoryError: spazio heap Java
Il mio cluster: 1 master, 11 slave, ogni nodo ha 6 GB di memoria. Le mie impostazioni: spark.executor.memory=4g, Dspark.akka.frameSize=512 Ecco il problema: Innanzitutto , ho letto alcuni dati (2,19 GB) da HDFS a RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Secondo , fai qualcosa su questo RDD: val res = imageBundleRDD.map(data => …

7
Attività non serializzabile: java.io.NotSerializableException quando si chiama la funzione fuori dalla chiusura solo su classi non oggetti
Ottenere un comportamento strano quando si chiama la funzione al di fuori di una chiusura: quando la funzione è in un oggetto tutto funziona quando la funzione è in una classe ottenere: Attività non serializzabile: java.io.NotSerializableException: testing Il problema è che ho bisogno del mio codice in una classe e …



13
Come mostrare il contenuto della colonna completa in un Spark Dataframe?
Sto usando spark-csv per caricare i dati in un DataFrame. Voglio fare una semplice query e visualizzare il contenuto: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Il col sembra troncato: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …



20
Come interrompere la visualizzazione dei messaggi INFO sulla Spark Console?
Vorrei fermare vari messaggi che arrivano su Spark Shell. Ho provato a modificare il log4j.propertiesfile per interrompere questo messaggio. Ecco i contenuti di log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that …

10
Come leggere più file di testo in un singolo RDD?
Voglio leggere un mucchio di file di testo da una posizione hdfs ed eseguire il mapping su di esso in un'iterazione usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); è in grado di leggere solo un file alla volta. Voglio leggere più di un file ed elaborarli come un singolo RDD. …
179 apache-spark 

2
Spark performance per Scala vs Python
Preferisco Python rispetto alla Scala. Ma, poiché Spark è scritto in modo nativo in Scala, mi aspettavo che il mio codice funzionasse più velocemente in Scala rispetto alla versione Python per ovvie ragioni. Con questo presupposto, ho pensato di imparare e scrivere la versione Scala di alcuni codici di preelaborazione …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.