Domande taggate «pyspark»

L'API Spark Python (PySpark) espone il modello di programmazione apache-spark a Python.


2
Spark performance per Scala vs Python
Preferisco Python rispetto alla Scala. Ma, poiché Spark è scritto in modo nativo in Scala, mi aspettavo che il mio codice funzionasse più velocemente in Scala rispetto alla versione Python per ovvie ragioni. Con questo presupposto, ho pensato di imparare e scrivere la versione Scala di alcuni codici di preelaborazione …


2
Come aggiungere una colonna costante in Spark DataFrame?
Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

9
Come si aggiunge una nuova colonna a un Spark DataFrame (utilizzando PySpark)?
Ho uno Spark DataFrame (utilizzando PySpark 1.5.1) e vorrei aggiungere una nuova colonna. Ho provato quanto segue senza alcun successo: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ho anche ricevuto un errore usando questo: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) …

19
importare pyspark nella shell di python
Questa è una copia della domanda di qualcun altro su un altro forum a cui non è mai stata data risposta, quindi ho pensato di chiederla nuovamente qui, poiché ho lo stesso problema. (Vedi http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ho Spark installato correttamente sulla mia macchina e sono in grado di eseguire programmi …

12
Carica il file CSV con Spark
Sono nuovo in Spark e sto cercando di leggere i dati CSV da un file con Spark. Ecco cosa sto facendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Mi aspetto che questa chiamata mi dia un elenco delle prime due colonne del mio file, ma ricevo questo errore: File "<ipython-input-60-73ea98550983>", line …


4
Spark Kill Running Application
Ho un'applicazione Spark in esecuzione in cui occupa tutti i core in cui le mie altre applicazioni non verranno assegnate alcuna risorsa. Ho fatto alcune ricerche veloci e le persone hanno suggerito di usare YARN kill o / bin / spark-class per uccidere il comando. Tuttavia, sto usando la versione …

5
come cambiare una colonna Dataframe dal tipo String al tipo Double in pyspark
Ho un dataframe con colonna come String. Volevo cambiare il tipo di colonna in Double type in PySpark. Di seguito è il modo, ho fatto: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Volevo solo sapere, è questo il modo giusto per farlo poiché durante la regressione logistica, ricevo un …

10
Filtra la colonna del dataframe Pyspark con il valore Nessuno
Sto cercando di filtrare un dataframe PySpark che ha Nonecome valore di riga: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrare correttamente con un valore stringa: df[df.dt_mvmt == '2016-03-31'] # some results here ma questo fallisce: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ma ci sono sicuramente …


18
Come imposto la versione python del driver in Spark?
Sto usando spark 1.4.0-rc2 quindi posso usare python 3 con spark. Se aggiungo export PYSPARK_PYTHON=python3al mio file .bashrc, posso eseguire Spark in modo interattivo con Python 3. Tuttavia, se voglio eseguire un programma autonomo in modalità locale, ottengo un errore: Exception: Python in worker has different version 3.4 than that …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.