Programmazione apache-spark

19

Questa è una copia della domanda di qualcun altro su un altro forum a cui non è mai stata data risposta, quindi ho pensato di chiederla nuovamente qui, poiché ho lo stesso problema. (Vedi http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ho Spark installato correttamente sulla mia macchina e sono in grado di eseguire programmi …

111 python apache-spark pyspark

12

Carica il file CSV con Spark

Sono nuovo in Spark e sto cercando di leggere i dati CSV da un file con Spark. Ecco cosa sto facendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Mi aspetto che questa chiamata mi dia un elenco delle prime due colonne del mio file, ma ricevo questo errore: File "<ipython-input-60-73ea98550983>", line …

110 python csv apache-spark pyspark

13

Scrivi un singolo file CSV utilizzando spark-csv

Sto usando https://github.com/databricks/spark-csv , sto cercando di scrivere un singolo CSV, ma non ci riesco, sta creando una cartella. Serve una funzione Scala che prenda parametri come il percorso e il nome del file e scriva quel file CSV.

108 scala csv apache-spark spark-csv

8

Come sovrascrivere la directory di output in spark

Ho un'applicazione Spark Streaming che produce un set di dati per ogni minuto. Ho bisogno di salvare / sovrascrivere i risultati dei dati elaborati. Quando ho provato a sovrascrivere il set di dati org.apache.hadoop.mapred.FileAlreadyExistsException interrompe l'esecuzione. Ho impostato la proprietà Spark set("spark.files.overwrite","true"), ma non c'è fortuna. Come sovrascrivere o predelete …

107 apache-spark

8

Converti la colonna Spark DataFrame in un elenco Python

Lavoro su un dataframe con due colonne, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | vorrei ottenere due elenchi contenenti valori mvv e valore di conteggio. Qualcosa di simile a mvv = …

104 python apache-spark pyspark spark-dataframe

14

Come verificare se il dataframe spark è vuoto?

In questo momento, devo usare df.count > 0per verificare se DataFrameè vuoto o meno. Ma è un po 'inefficiente. C'è un modo migliore per farlo? Grazie. PS: voglio controllare se è vuoto in modo da salvare solo DataFramese non è vuoto

102 apache-spark apache-spark-sql

4

Spark Kill Running Application

Ho un'applicazione Spark in esecuzione in cui occupa tutti i core in cui le mie altre applicazioni non verranno assegnate alcuna risorsa. Ho fatto alcune ricerche veloci e le persone hanno suggerito di usare YARN kill o / bin / spark-class per uccidere il comando. Tuttavia, sto usando la versione …

101 apache-spark yarn pyspark

14

Come caricare il file locale in sc.textFile, invece di HDFS

Sto seguendo il fantastico tutorial su Spark quindi sto provando a 46m: 00s per caricare il README.mdma non riesco a quello che sto facendo è questo: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = …

100 scala apache-spark

5

come cambiare una colonna Dataframe dal tipo String al tipo Double in pyspark

Ho un dataframe con colonna come String. Volevo cambiare il tipo di colonna in Double type in PySpark. Di seguito è il modo, ho fatto: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Volevo solo sapere, è questo il modo giusto per farlo poiché durante la regressione logistica, ricevo un …

99 python apache-spark dataframe pyspark apache-spark-sql

10

Filtra la colonna del dataframe Pyspark con il valore Nessuno

Sto cercando di filtrare un dataframe PySpark che ha Nonecome valore di riga: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrare correttamente con un valore stringa: df[df.dt_mvmt == '2016-03-31'] # some results here ma questo fallisce: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ma ci sono sicuramente …

98 python apache-spark dataframe pyspark apache-spark-sql

7

Come creare un DataFrame vuoto con uno schema specificato?

Voglio creare su DataFrame con uno schema specificato in Scala. Ho provato a usare JSON read (intendo leggere file vuoti) ma non credo che sia la migliore pratica.

94 scala apache-spark dataframe apache-spark-sql

10

Come configurare Spark su Windows?

Sto provando a configurare Apache Spark su Windows. Dopo aver cercato un po ', capisco che la modalità standalone è quello che voglio. Quali binari devo scaricare per eseguire Apache Spark in Windows? Vedo distribuzioni con hadoop e cdh nella pagina di download di Spark. Non ho riferimenti nel web …

93 windows apache-spark

14

Spark - Errore "È necessario impostare un URL principale nella configurazione" quando si invia un'app

Ho un'app Spark che funziona senza problemi in modalità locale, ma ho alcuni problemi durante l'invio al cluster Spark. I messaggi di errore sono i seguenti: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …

93 scala apache-spark

5

Ridenominazione dei nomi delle colonne di un DataFrame in Spark Scala

Sto cercando di convertire tutte le intestazioni / i nomi delle colonne di un DataFramein Spark-Scala. fin d'ora mi viene in mente il seguente codice che sostituisce solo il nome di una singola colonna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

Cosa significano i numeri sulla barra di avanzamento in Spark-Shell?

Nella mia shell spark, cosa significano voci come quelle sotto quando eseguo una funzione? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Domande taggate «apache-spark»