Ecco sette passaggi per installare Spark su Windows 10 ed eseguirlo da Python:
Passaggio 1: scarica il file gz spark 2.2.0 tar (tape Archive) in qualsiasi cartella F da questo link: https://spark.apache.org/downloads.html . Decomprimilo e copia la cartella decompressa nella cartella desiderata A. Rinomina la cartella spark-2.2.0-bin-hadoop2.7 in spark.
Lascia che il percorso della cartella Spark sia C: \ Users \ Desktop \ A \ spark
Passaggio 2: scarica il file tar gz di hardoop 2.7.3 nella stessa cartella F da questo link: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Decomprimilo e copia la cartella decompressa nella stessa cartella A. Rinomina il nome della cartella da Hadoop-2.7.3.tar a hadoop. Lascia che il percorso della cartella hadoop sia C: \ Users \ Desktop \ A \ hadoop
Passaggio 3: creare un nuovo file di testo del blocco note. Salva questo file di blocco note vuoto come winutils.exe (con Salva come tipo: Tutti i file). Copia questo file O KB winutils.exe nella cartella bin in spark - C: \ Users \ Desktop \ A \ spark \ bin
Passaggio 4: ora dobbiamo aggiungere queste cartelle all'ambiente di sistema.
4a: creare una variabile di sistema (non una variabile utente poiché la variabile utente erediterà tutte le proprietà della variabile di sistema) Nome variabile: SPARK_HOME Valore variabile: C: \ Users \ Desktop \ A \ spark
Trova la variabile di sistema Path e fai clic su Modifica. Vedrai più percorsi. Non eliminare nessuno dei percorsi. Aggiungi questo valore variabile -; C: \ Users \ Desktop \ A \ spark \ bin
4b: crea una variabile di sistema
Nome variabile: HADOOP_HOME Valore variabile: C: \ Users \ Desktop \ A \ hadoop
Trova la variabile di sistema Path e fai clic su Modifica. Aggiungi questo valore variabile -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: creare una variabile di sistema Nome variabile: JAVA_HOME Cerca Java in Windows. Fare clic con il tasto destro e fare clic su Apri percorso file. Dovrai fare nuovamente clic con il pulsante destro del mouse su uno qualsiasi dei file java e fare clic sulla posizione del file aperto. Utilizzerai il percorso di questa cartella. OPPURE puoi cercare C: \ Programmi \ Java. La mia versione di Java installata sul sistema è jre1.8.0_131. Valore variabile: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Trova la variabile di sistema Path e fai clic su Modifica. Aggiungi questo valore variabile -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Passaggio 5: apri il prompt dei comandi e vai alla cartella spark bin (digita cd C: \ Users \ Desktop \ A \ spark \ bin). Digitare spark-shell.
C:\Users\Desktop\A\spark\bin>spark-shell
Potrebbe volerci del tempo e fornire alcuni avvertimenti. Infine, mostrerà il benvenuto a Spark versione 2.2.0
Passaggio 6: digitare exit () o riavviare il prompt dei comandi e accedere nuovamente alla cartella Spark bin. Tipo pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Mostrerà alcuni avvisi ed errori ma ignorerà. Funziona.
Passaggio 7: il download è completo. Se vuoi eseguire spark direttamente dalla shell di python, vai su Script nella tua cartella python e digita
pip install findspark
nel prompt dei comandi.
In guscio di pitone
import findspark
findspark.init()
importare i moduli necessari
from pyspark import SparkContext
from pyspark import SparkConf
Se desideri saltare i passaggi per importare findspark e inizializzarlo, segui la procedura indicata per
importare pyspark nella shell di python