Ho creato Spark 1.4 dal master di sviluppo GH e la build è andata a buon fine. Ma quando faccio un filebin/pyspark
eseguo ottengo la versione Python 2.7.9. Come posso cambiarlo?
Ho creato Spark 1.4 dal master di sviluppo GH e la build è andata a buon fine. Ma quando faccio un filebin/pyspark
eseguo ottengo la versione Python 2.7.9. Come posso cambiarlo?
Risposte:
Basta impostare la variabile d'ambiente:
export PYSPARK_PYTHON=python3
nel caso in cui desideri che sia una modifica permanente, aggiungi questa riga allo script pyspark.
export PYSPARK_PYTHON=python3.5
per Python 3.5
$SPARK_HOME/conf/spark-env.sh
modo da spark-submit
utilizzare anche lo stesso interprete.
PYSPARK_PYTHON=python3
./bin/pyspark
Se vuoi eseguire in IPython Notebook, scrivi:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Se python3
non è accessibile, è necessario passarci il percorso.
Tieni presente che la documentazione corrente (alla 1.4.1) contiene istruzioni obsolete. Fortunatamente, è stato riparato .
Dai un'occhiata al file. La riga shebang è probabilmente puntata al binario 'env' che cerca il percorso del primo eseguibile compatibile.
Puoi cambiare python in python3. Modificare env per utilizzare direttamente il codice binario python3. Oppure esegui il binario direttamente con python3 e ometti la riga shebang.
PYSPARK_PYTHON
variabile d'ambiente.
Per Jupyter Notebook, modifica il spark-env.sh
file come mostrato di seguito dalla riga di comando
$ vi $SPARK_HOME/conf/spark-env.sh
Vai alla fine del file e copia e incolla queste righe
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Quindi, esegui semplicemente il seguente comando per avviare pyspark nel notebook
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
:, nel qual caso esegue il notebook IPython 3.