Domande taggate «apache-spark»

Apache Spark è un motore di elaborazione dati distribuito open source scritto in Scala che fornisce agli utenti un'API unificata e set di dati distribuiti. I casi d'uso di Apache Spark sono spesso correlati a machine / deep learning, elaborazione di grafici.




8
Come selezionare la prima riga di ciascun gruppo?
Ho un DataFrame generato come segue: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) I risultati sembrano: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

3
Come vengono suddivise le fasi in attività in Spark?
Supponiamo per quanto segue che sia in esecuzione un solo processo Spark in ogni momento. Quello che ottengo finora Ecco cosa capisco cosa succede in Spark: Quando SparkContextviene creato un, ogni nodo di lavoro avvia un esecutore. Gli esecutori sono processi separati (JVM), che si ricollegano al programma del driver. …
143 apache-spark 

14
Spark: carica il file CSV come DataFrame?
Vorrei leggere un CSV in Spark e convertirlo come DataFrame e memorizzarlo in HDFS con df.registerTempTable("table_name") Ho provato: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Errore che ho ricevuto: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at …


2
Come aggiungere una colonna costante in Spark DataFrame?
Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


3
Apache Spark: map vs mapPartitions?
Qual è la differenza tra un RDD map e il mapPartitionsmetodo? E si flatMapcomporta come mapo piace mapPartitions? Grazie. (modifica) ovvero qual è la differenza (sia semanticamente che in termini di esecuzione) tra def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …

9
Come si aggiunge una nuova colonna a un Spark DataFrame (utilizzando PySpark)?
Ho uno Spark DataFrame (utilizzando PySpark 1.5.1) e vorrei aggiungere una nuova colonna. Ho provato quanto segue senza alcun successo: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ho anche ricevuto un errore usando questo: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) …


12
Come impostare la memoria di Apache Spark Executor
Come posso aumentare la memoria disponibile per i nodi degli esecutori spark di Apache? Ho un file da 2 GB adatto al caricamento su Apache Spark. Sto eseguendo Apache Spark per il momento su 1 macchina, quindi il driver e l'esecutore sono sulla stessa macchina. La macchina ha 8 GB …

10
Come stampare il contenuto di RDD?
Sto tentando di stampare il contenuto di una raccolta sulla console Spark. Ho un tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] E io uso il comando: scala> linesWithSessionId.map(line => println(line)) Ma questo è stampato: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] alla mappa a: 19 Come posso scrivere l'RDD sulla console o salvarlo …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.