Sto lavorando alla configurazione di una serie di VM per sperimentare Spark prima di spendere e spendere soldi per costruire un cluster con dell'hardware. Nota veloce: sono un accademico con un background nell'apprendimento automatico applicato e lavoro un po 'abbandonato nella scienza dei dati. Uso gli strumenti per l'informatica, raramente avrei bisogno di configurarli.
Ho creato 3 VM (1 master, 2 slave) e installato Spark con successo. Tutto sembra funzionare come dovrebbe. Il mio problema risiede nella creazione di un server Jupyter a cui è possibile connettersi da un browser non in esecuzione su una macchina del cluster.
Ho installato il notebook Jupyter con successo ... e funziona. Ho aggiunto un nuovo profilo IPython che si collega a un server remoto con Spark.
ora il problema
Il comando
$ ipython --profile=pyspark
funziona bene e si collega al gruppo scintille. Tuttavia,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
il default
profilo predefinito non è il pyspark
profilo.
La configurazione del mio notebook per pyspark
ha:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
? È possibile che il problema riguardasse solo l'ordine degli argomenti.