Domande taggate «apache-spark-sql»

Apache Spark SQL è uno strumento per "SQL e elaborazione di dati strutturati" su Spark, un sistema di cluster computing veloce e generico. Può essere utilizzato per recuperare dati da Hive, Parquet, ecc. Ed eseguire query SQL su RDD e set di dati esistenti.

Spark DataFrame groupBy e ordina in ordine decrescente (pyspark)

Sto usando pyspark (Python 2.7.9 / Spark 1.3.1) e ho un GroupObject del dataframe che devo filtrare e ordinare in ordine decrescente. Sto cercando di ottenerlo tramite questo pezzo di codice. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ma genera il seguente errore. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

Estrai i valori delle colonne di Dataframe come elenco in Apache Spark

Voglio convertire una colonna di stringhe di un data frame in un elenco. Quello che posso trovare Dataframedall'API è RDD, quindi ho provato prima a riconvertirlo in RDD, quindi applicare la toArrayfunzione all'RDD. In questo caso, la lunghezza e l'SQL funzionano perfettamente. Tuttavia, il risultato che ho ottenuto da RDD …

87 scala apache-spark apache-spark-sql

Come salvare DataFrame direttamente su Hive?

È possibile salvare DataFramein Spark direttamente su Hive? Ho provato a convertire DataFramein Rdde quindi salvare come file di testo e quindi caricare in hive. Ma mi chiedo se posso salvare direttamente dataframein hive

85 scala apache-spark hive apache-spark-sql

Scrivere più di 50 milioni da Pyspark df a PostgresSQL, il miglior approccio efficiente

Quale sarebbe il modo più efficiente per inserire milioni di record dire 50 milioni da un frame di dati Spark a Tabelle Postgres. In passato l' ho fatto da Spark a MSSQL facendo uso dell'opzione di copia bulk e dimensione batch che ha avuto successo. C'è qualcosa di simile che …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

Spark: UDF eseguito più volte

Ho un dataframe con il seguente codice: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Ora controllando i registri, ho scoperto che per ogni riga l'UDF viene eseguito …

9 scala apache-spark apache-spark-sql

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.