Programmazione apache-spark-sql

15

Differenza tra DataFrame, Dataset e RDD in Spark

Mi sto solo chiedendo quale sia la differenza tra an RDDe DataFrame (Spark 2.0.0 DataFrame è un semplice alias di tipo per Dataset[Row]) in Apache Spark? Puoi convertirlo l'uno nell'altro?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Come posso cambiare i tipi di colonna nel DataFrame di Spark SQL?

Supponiamo che stia facendo qualcosa del tipo: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() …

152 scala apache-spark apache-spark-sql

8

Come selezionare la prima riga di ciascun gruppo?

Ho un DataFrame generato come segue: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) I risultati sembrano: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

14

Spark: carica il file CSV come DataFrame?

Vorrei leggere un CSV in Spark e convertirlo come DataFrame e memorizzarlo in HDFS con df.registerTempTable("table_name") Ho provato: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Errore che ho ricevuto: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at …

142 scala apache-spark hadoop apache-spark-sql hdfs

11

Come convertire l'oggetto RDD in frame di dati in Spark

Come posso convertire un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) in un Dataframe org.apache.spark.sql.DataFrame. Ho convertito un dataframe in rdd utilizzando .rdd. Dopo averlo elaborato, lo rivoglio in dataframe. Come posso fare questo ?

139 scala apache-spark apache-spark-sql rdd

2

Come aggiungere una colonna costante in Spark DataFrame?

Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Come ordinare per colonna in ordine decrescente in Spark SQL?

Ho provato, df.orderBy("col1").show(10)ma ha ordinato in ordine crescente. df.sort("col1").show(10)ordina anche in ordine decrescente. Ho esaminato StackOverflow e le risposte che ho trovato erano tutte obsolete o riferite a RDD . Vorrei usare il frame di dati nativo in Spark.

137 scala apache-spark apache-spark-sql

9

Come si aggiunge una nuova colonna a un Spark DataFrame (utilizzando PySpark)?

Ho uno Spark DataFrame (utilizzando PySpark 1.5.1) e vorrei aggiungere una nuova colonna. Ho provato quanto segue senza alcun successo: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ho anche ricevuto un errore usando questo: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) …

129 python apache-spark dataframe pyspark apache-spark-sql

5

Come definire il partizionamento di DataFrame?

Ho iniziato a utilizzare Spark SQL e DataFrames in Spark 1.4.0. Voglio definire un partizionatore personalizzato su DataFrames, in Scala, ma non vedo come farlo. Una delle tabelle di dati con cui sto lavorando contiene un elenco di transazioni, per account, silimar nell'esempio seguente. Account Date Type Amount 1001 2014-04-01 …

128 scala apache-spark dataframe apache-spark-sql partitioning

14

Colonne concatenate in Apache Spark DataFrame

Come concateniamo due colonne in un DataFrame Apache Spark? C'è qualche funzione in Spark SQL che possiamo usare?

116 sql apache-spark dataframe apache-spark-sql

14

Come verificare se il dataframe spark è vuoto?

In questo momento, devo usare df.count > 0per verificare se DataFrameè vuoto o meno. Ma è un po 'inefficiente. C'è un modo migliore per farlo? Grazie. PS: voglio controllare se è vuoto in modo da salvare solo DataFramese non è vuoto

102 apache-spark apache-spark-sql

5

come cambiare una colonna Dataframe dal tipo String al tipo Double in pyspark

Ho un dataframe con colonna come String. Volevo cambiare il tipo di colonna in Double type in PySpark. Di seguito è il modo, ho fatto: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Volevo solo sapere, è questo il modo giusto per farlo poiché durante la regressione logistica, ricevo un …

99 python apache-spark dataframe pyspark apache-spark-sql

10

Filtra la colonna del dataframe Pyspark con il valore Nessuno

Sto cercando di filtrare un dataframe PySpark che ha Nonecome valore di riga: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrare correttamente con un valore stringa: df[df.dt_mvmt == '2016-03-31'] # some results here ma questo fallisce: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ma ci sono sicuramente …

98 python apache-spark dataframe pyspark apache-spark-sql

7

Come creare un DataFrame vuoto con uno schema specificato?

Voglio creare su DataFrame con uno schema specificato in Scala. Ho provato a usare JSON read (intendo leggere file vuoti) ma non credo che sia la migliore pratica.

94 scala apache-spark dataframe apache-spark-sql

5

Ridenominazione dei nomi delle colonne di un DataFrame in Spark Scala

Sto cercando di convertire tutte le intestazioni / i nomi delle colonne di un DataFramein Spark-Scala. fin d'ora mi viene in mente il seguente codice che sostituisce solo il nome di una singola colonna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Domande taggate «apache-spark-sql»