Programmazione apache-spark

5

Apache Spark: come utilizzare pyspark con Python 3

Ho creato Spark 1.4 dal master di sviluppo GH e la build è andata a buon fine. Ma quando faccio un filebin/pyspark eseguo ottengo la versione Python 2.7.9. Come posso cambiarlo?

91 python python-3.x apache-spark

12

java.io.IOException: impossibile individuare l'eseguibile null \ bin \ winutils.exe nei binari di Hadoop. Spark Eclipse su Windows 7

Non sono in grado di eseguire un semplice sparklavoro in Scala IDE(progetto Maven spark) installato suWindows 7 È stata aggiunta la dipendenza core Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Errore: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at …

91 eclipse scala apache-spark

10

Apache Spark può funzionare senza hadoop?

Esistono dipendenze tra Spark e Hadoop ? In caso contrario, ci sono funzionalità che mi mancheranno quando eseguo Spark senza Hadoop ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy e ordina in ordine decrescente (pyspark)

Sto usando pyspark (Python 2.7.9 / Spark 1.3.1) e ho un GroupObject del dataframe che devo filtrare e ordinare in ordine decrescente. Sto cercando di ottenerlo tramite questo pezzo di codice. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ma genera il seguente errore. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

12

Errore di Spark-shell del Mac durante l'inizializzazione di SparkContext

Ho provato ad avviare spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) su Mac OS Yosemite 10.10.5 utilizzando "./bin/spark-shell". Ha l'errore qui sotto. Ho anche provato a installare diverse versioni di Spark, ma tutte hanno lo stesso errore. Questa è la seconda volta che eseguo Spark. La mia corsa precedente funziona bene. log4j:WARN No appenders …

89 apache-spark

1

Che cosa significa "Fase saltata" nell'interfaccia utente Web di Apache Spark?

Dalla mia interfaccia utente di Spark. Cosa significa saltato?

88 apache-spark rdd

18

Come imposto la versione python del driver in Spark?

Sto usando spark 1.4.0-rc2 quindi posso usare python 3 con spark. Se aggiungo export PYSPARK_PYTHON=python3al mio file .bashrc, posso eseguire Spark in modo interattivo con Python 3. Tuttavia, se voglio eseguire un programma autonomo in modalità locale, ottengo un errore: Exception: Python in worker has different version 3.4 than that …

88 apache-spark pyspark

8

Perché i processi Spark non riescono con org.apache.spark.shuffle.MetadataFetchFailedException: manca un percorso di output per shuffle 0 in modalità speculazione?

Sto eseguendo un lavoro Spark con in modalità speculazione. Ho circa 500 attività e circa 500 file compressi da 1 GB gz. Continuo a ricevere in ogni lavoro, per 1-2 attività, l'errore allegato in cui viene ripetuto decine di volte in seguito (impedendo il completamento del lavoro). org.apache.spark.shuffle.MetadataFetchFailedException: manca una …

88 apache-spark

10

Estrai i valori delle colonne di Dataframe come elenco in Apache Spark

Voglio convertire una colonna di stringhe di un data frame in un elenco. Quello che posso trovare Dataframedall'API è RDD, quindi ho provato prima a riconvertirlo in RDD, quindi applicare la toArrayfunzione all'RDD. In questo caso, la lunghezza e l'SQL funzionano perfettamente. Tuttavia, il risultato che ho ottenuto da RDD …

87 scala apache-spark apache-spark-sql

11

Come salvare DataFrame direttamente su Hive?

È possibile salvare DataFramein Spark direttamente su Hive? Ho provato a convertire DataFramein Rdde quindi salvare come file di testo e quindi caricare in hive. Ma mi chiedo se posso salvare direttamente dataframein hive

85 scala apache-spark hive apache-spark-sql

5

Calcola la velocità media delle strade [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 giorni fa . Sono andato a un colloquio di lavoro di ingegnere di dati. …

20 apache-spark apache-kafka stream-processing

2

Deadlock quando vengono programmati contemporaneamente molti processi spark

Utilizzo di spark 2.4.4 in esecuzione in modalità cluster YARN con lo scheduler spark FIFO. Sto inviando più operazioni di spark dataframe (cioè scrivendo dati su S3) usando un esecutore di pool di thread con un numero variabile di thread. Funziona bene se ho ~ 10 thread, ma se uso …

17 apache-spark

2

Spark: Perché Python supera significativamente Scala nel mio caso d'uso?

Per confrontare le prestazioni di Spark durante l'utilizzo di Python e Scala ho creato lo stesso lavoro in entrambe le lingue e confrontato il runtime. Mi aspettavo che entrambi i lavori impiegassero all'incirca la stessa quantità di tempo, ma il lavoro in Python impiegava solo 27min, mentre il lavoro in …

16 python scala apache-spark pyspark

1

Scrivere più di 50 milioni da Pyspark df a PostgresSQL, il miglior approccio efficiente

Quale sarebbe il modo più efficiente per inserire milioni di record dire 50 milioni da un frame di dati Spark a Tabelle Postgres. In passato l' ho fatto da Spark a MSSQL facendo uso dell'opzione di copia bulk e dimensione batch che ha avuto successo. C'è qualcosa di simile che …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

Come risolvere l'errore "TypeError: è necessario un numero intero (ottenuto i byte di tipo)" quando si tenta di eseguire pyspark dopo l'installazione di spark 2.4.4

Ho installato OpenJDK 13.0.1 e python 3.8 e spark 2.4.4. Le istruzioni per testare l'installazione devono essere eseguite. \ Bin \ pyspark dalla radice dell'installazione spark. Non sono sicuro di aver perso un passaggio nell'installazione di Spark, come l'impostazione di alcune variabili di ambiente, ma non riesco a trovare ulteriori …

16 apache-spark pyspark

Domande taggate «apache-spark»