Vengo dallo sfondo di Panda e sono abituato a leggere i dati dai file CSV in un frame di dati e quindi semplicemente cambiare i nomi delle colonne in qualcosa di utile usando il semplice comando: df.columns = new_column_name_list Tuttavia, lo stesso non funziona nei frame di dati pyspark creati …
Preferisco Python rispetto alla Scala. Ma, poiché Spark è scritto in modo nativo in Scala, mi aspettavo che il mio codice funzionasse più velocemente in Scala rispetto alla versione Python per ovvie ragioni. Con questo presupposto, ho pensato di imparare e scrivere la versione Scala di alcuni codici di preelaborazione …
Ho installato Spark usando la guida di AWS EC2 e posso avviare il programma bin/pysparkcorrettamente usando lo script per accedere al prompt spark e posso anche eseguire la guida Quick Start con successo. Tuttavia, non posso per la vita di me capire come fermare tutto il INFOlog dettagliato dopo ogni …
Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …
Ho uno Spark DataFrame (utilizzando PySpark 1.5.1) e vorrei aggiungere una nuova colonna. Ho provato quanto segue senza alcun successo: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Ho anche ricevuto un errore usando questo: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) …
Questa è una copia della domanda di qualcun altro su un altro forum a cui non è mai stata data risposta, quindi ho pensato di chiederla nuovamente qui, poiché ho lo stesso problema. (Vedi http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ho Spark installato correttamente sulla mia macchina e sono in grado di eseguire programmi …
Sono nuovo in Spark e sto cercando di leggere i dati CSV da un file con Spark. Ecco cosa sto facendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Mi aspetto che questa chiamata mi dia un elenco delle prime due colonne del mio file, ma ricevo questo errore: File "<ipython-input-60-73ea98550983>", line …
Lavoro su un dataframe con due colonne, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | vorrei ottenere due elenchi contenenti valori mvv e valore di conteggio. Qualcosa di simile a mvv = …
Ho un'applicazione Spark in esecuzione in cui occupa tutti i core in cui le mie altre applicazioni non verranno assegnate alcuna risorsa. Ho fatto alcune ricerche veloci e le persone hanno suggerito di usare YARN kill o / bin / spark-class per uccidere il comando. Tuttavia, sto usando la versione …
Ho un dataframe con colonna come String. Volevo cambiare il tipo di colonna in Double type in PySpark. Di seguito è il modo, ho fatto: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Volevo solo sapere, è questo il modo giusto per farlo poiché durante la regressione logistica, ricevo un …
Sto cercando di filtrare un dataframe PySpark che ha Nonecome valore di riga: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrare correttamente con un valore stringa: df[df.dt_mvmt == '2016-03-31'] # some results here ma questo fallisce: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ma ci sono sicuramente …
Sto usando pyspark (Python 2.7.9 / Spark 1.3.1) e ho un GroupObject del dataframe che devo filtrare e ordinare in ordine decrescente. Sto cercando di ottenerlo tramite questo pezzo di codice. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ma genera il seguente errore. sort() got an unexpected keyword argument 'ascending'
Sto usando spark 1.4.0-rc2 quindi posso usare python 3 con spark. Se aggiungo export PYSPARK_PYTHON=python3al mio file .bashrc, posso eseguire Spark in modo interattivo con Python 3. Tuttavia, se voglio eseguire un programma autonomo in modalità locale, ottengo un errore: Exception: Python in worker has different version 3.4 than that …
Per confrontare le prestazioni di Spark durante l'utilizzo di Python e Scala ho creato lo stesso lavoro in entrambe le lingue e confrontato il runtime. Mi aspettavo che entrambi i lavori impiegassero all'incirca la stessa quantità di tempo, ma il lavoro in Python impiegava solo 27min, mentre il lavoro in …
Quale sarebbe il modo più efficiente per inserire milioni di record dire 50 milioni da un frame di dati Spark a Tabelle Postgres. In passato l' ho fatto da Spark a MSSQL facendo uso dell'opzione di copia bulk e dimensione batch che ha avuto successo. C'è qualcosa di simile che …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.