Domande taggate «apache-spark-sql»

Apache Spark SQL è uno strumento per "SQL e elaborazione di dati strutturati" su Spark, un sistema di cluster computing veloce e generico. Può essere utilizzato per recuperare dati da Hive, Parquet, ecc. Ed eseguire query SQL su RDD e set di dati esistenti.





1
Spark: UDF eseguito più volte
Ho un dataframe con il seguente codice: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Ora controllando i registri, ho scoperto che per ogni riga l'UDF viene eseguito …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.