Programmazione apache-spark

23

Come posso cambiare i tipi di colonna nel DataFrame di Spark SQL?

Supponiamo che stia facendo qualcosa del tipo: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() …

152 scala apache-spark apache-spark-sql

8

Come archiviare oggetti personalizzati nel set di dati?

Secondo l' introduzione di Spark Dataset : In attesa di Spark 2.0, pianifichiamo alcuni entusiasmanti miglioramenti dei set di dati, in particolare: ... Encoder personalizzati: mentre attualmente generiamo gli encoder per un'ampia varietà di tipi, vorremmo aprire un'API per oggetti personalizzati. e tenta di memorizzare il tipo personalizzato in un …

149 scala apache-spark apache-spark-dataset apache-spark-encoders

15

Come disattivare la registrazione INFO in Spark?

Ho installato Spark usando la guida di AWS EC2 e posso avviare il programma bin/pysparkcorrettamente usando lo script per accedere al prompt spark e posso anche eseguire la guida Quick Start con successo. Tuttavia, non posso per la vita di me capire come fermare tutto il INFOlog dettagliato dopo ogni …

144 python scala apache-spark hadoop pyspark

8

Come selezionare la prima riga di ciascun gruppo?

Ho un DataFrame generato come segue: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) I risultati sembrano: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

3

Come vengono suddivise le fasi in attività in Spark?

Supponiamo per quanto segue che sia in esecuzione un solo processo Spark in ogni momento. Quello che ottengo finora Ecco cosa capisco cosa succede in Spark: Quando SparkContextviene creato un, ogni nodo di lavoro avvia un esecutore. Gli esecutori sono processi separati (JVM), che si ricollegano al programma del driver. …

143 apache-spark

14

Spark: carica il file CSV come DataFrame?

Vorrei leggere un CSV in Spark e convertirlo come DataFrame e memorizzarlo in HDFS con df.registerTempTable("table_name") Ho provato: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Errore che ho ricevuto: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at …

142 scala apache-spark hadoop apache-spark-sql hdfs

11

Come convertire l'oggetto RDD in frame di dati in Spark

Come posso convertire un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) in un Dataframe org.apache.spark.sql.DataFrame. Ho convertito un dataframe in rdd utilizzando .rdd. Dopo averlo elaborato, lo rivoglio in dataframe. Come posso fare questo ?

139 scala apache-spark apache-spark-sql rdd

2

Come aggiungere una colonna costante in Spark DataFrame?

Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Come ordinare per colonna in ordine decrescente in Spark SQL?

Ho provato, df.orderBy("col1").show(10)ma ha ordinato in ordine crescente. df.sort("col1").show(10)ordina anche in ordine decrescente. Ho esaminato StackOverflow e le risposte che ho trovato erano tutte obsolete o riferite a RDD . Vorrei usare il frame di dati nativo in Spark.

137 scala apache-spark apache-spark-sql

3

Apache Spark: map vs mapPartitions?

Qual è la differenza tra un RDD map e il mapPartitionsmetodo? E si flatMapcomporta come mapo piace mapPartitions? Grazie. (modifica) ovvero qual è la differenza (sia semanticamente che in termini di esecuzione) tra def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ …

133 performance scala apache-spark rdd

9

Come si aggiunge una nuova colonna a un Spark DataFrame (utilizzando PySpark)?

Ho uno Spark DataFrame (utilizzando PySpark 1.5.1) e vorrei aggiungere una nuova colonna. Ho provato quanto segue senza alcun successo: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ho anche ricevuto un errore usando questo: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) …

129 python apache-spark dataframe pyspark apache-spark-sql

5

Come definire il partizionamento di DataFrame?

Ho iniziato a utilizzare Spark SQL e DataFrames in Spark 1.4.0. Voglio definire un partizionatore personalizzato su DataFrames, in Scala, ma non vedo come farlo. Una delle tabelle di dati con cui sto lavorando contiene un elenco di transazioni, per account, silimar nell'esempio seguente. Account Date Type Amount 1001 2014-04-01 …

128 scala apache-spark dataframe apache-spark-sql partitioning

12

Come impostare la memoria di Apache Spark Executor

Come posso aumentare la memoria disponibile per i nodi degli esecutori spark di Apache? Ho un file da 2 GB adatto al caricamento su Apache Spark. Sto eseguendo Apache Spark per il momento su 1 macchina, quindi il driver e l'esecutore sono sulla stessa macchina. La macchina ha 8 GB …

127 memory apache-spark

10

Come stampare il contenuto di RDD?

Sto tentando di stampare il contenuto di una raccolta sulla console Spark. Ho un tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] E io uso il comando: scala> linesWithSessionId.map(line => println(line)) Ma questo è stampato: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] alla mappa a: 19 Come posso scrivere l'RDD sulla console o salvarlo …

124 scala apache-spark

14

Colonne concatenate in Apache Spark DataFrame

Come concateniamo due colonne in un DataFrame Apache Spark? C'è qualche funzione in Spark SQL che possiamo usare?

116 sql apache-spark dataframe apache-spark-sql

Domande taggate «apache-spark»