Domande taggate «apache-spark»

Apache Spark è un motore di elaborazione dati distribuito open source scritto in Scala che fornisce agli utenti un'API unificata e set di dati distribuiti. I casi d'uso di Apache Spark sono spesso correlati a machine / deep learning, elaborazione di grafici.

19
importare pyspark nella shell di python
Questa è una copia della domanda di qualcun altro su un altro forum a cui non è mai stata data risposta, quindi ho pensato di chiederla nuovamente qui, poiché ho lo stesso problema. (Vedi http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ho Spark installato correttamente sulla mia macchina e sono in grado di eseguire programmi …

12
Carica il file CSV con Spark
Sono nuovo in Spark e sto cercando di leggere i dati CSV da un file con Spark. Ecco cosa sto facendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Mi aspetto che questa chiamata mi dia un elenco delle prime due colonne del mio file, ma ricevo questo errore: File "<ipython-input-60-73ea98550983>", line …


8
Come sovrascrivere la directory di output in spark
Ho un'applicazione Spark Streaming che produce un set di dati per ogni minuto. Ho bisogno di salvare / sovrascrivere i risultati dei dati elaborati. Quando ho provato a sovrascrivere il set di dati org.apache.hadoop.mapred.FileAlreadyExistsException interrompe l'esecuzione. Ho impostato la proprietà Spark set("spark.files.overwrite","true"), ma non c'è fortuna. Come sovrascrivere o predelete …
107 apache-spark 



4
Spark Kill Running Application
Ho un'applicazione Spark in esecuzione in cui occupa tutti i core in cui le mie altre applicazioni non verranno assegnate alcuna risorsa. Ho fatto alcune ricerche veloci e le persone hanno suggerito di usare YARN kill o / bin / spark-class per uccidere il comando. Tuttavia, sto usando la versione …

14
Come caricare il file locale in sc.textFile, invece di HDFS
Sto seguendo il fantastico tutorial su Spark quindi sto provando a 46m: 00s per caricare il README.mdma non riesco a quello che sto facendo è questo: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = …

5
come cambiare una colonna Dataframe dal tipo String al tipo Double in pyspark
Ho un dataframe con colonna come String. Volevo cambiare il tipo di colonna in Double type in PySpark. Di seguito è il modo, ho fatto: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Volevo solo sapere, è questo il modo giusto per farlo poiché durante la regressione logistica, ricevo un …

10
Filtra la colonna del dataframe Pyspark con il valore Nessuno
Sto cercando di filtrare un dataframe PySpark che ha Nonecome valore di riga: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrare correttamente con un valore stringa: df[df.dt_mvmt == '2016-03-31'] # some results here ma questo fallisce: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ma ci sono sicuramente …


10
Come configurare Spark su Windows?
Sto provando a configurare Apache Spark su Windows. Dopo aver cercato un po ', capisco che la modalità standalone è quello che voglio. Quali binari devo scaricare per eseguire Apache Spark in Windows? Vedo distribuzioni con hadoop e cdh nella pagina di download di Spark. Non ho riferimenti nel web …

14
Spark - Errore "È necessario impostare un URL principale nella configurazione" quando si invia un'app
Ho un'app Spark che funziona senza problemi in modalità locale, ma ho alcuni problemi durante l'invio al cluster Spark. I messaggi di errore sono i seguenti: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.