4

我還沒有設法讓Spark,Scala和Jupyter進行合作。有沒有人有一個簡單的配方?你使用哪個版本的每個組件?在Dataproc上運行Spark + Scala + Jupyter

+0

相反,你可以使用飛艇 –

+0

事實上,這是工作的開箱一個很好的選擇。但是,哇,筆記本電腦的半個技嘉?他們在做什麼?我將繼續討論這個問題,直到有人展示如何讓Jupyter與Scala和Spark一起工作。在此期間,我將使用Zeppelin。感謝您的建議。 – Emre

+0

它支持許多解釋器,這些解釋器捆綁在相同的二進制文件中,因爲zeppelin二進制文件非常大。但是它們將在0.6版本中刪除該解釋器,並提供外部實用程序來安裝用戶需要的解釋器 –

回答

4

Apache Toree與DataProc的1.0圖像兼容,該圖像目前包含Spark 1.6.1。我沒有成功地將它用於包含Spark 2.0預覽的預覽圖像。要在DataProc主安裝Toree可以運行

sudo apt install python3-pip 
pip3 install --user jupyter 
export SPARK_HOME=/usr/lib/spark 
pip3 install --pre --user toree 
export PATH=$HOME/.local/bin:$PATH 
jupyter toree install --user --spark_home=$SPARK_HOME 
+0

有趣。他們的版本文檔暗示它不應該兼容:https://github.com/apache/incubator-toree#version。 –

+0

1.6.1符合「1.5.1+」,這就是他們所說的。至少它_seems_工作;我剛開始測試。 – Emre

0

Spark是Dataproc集羣的標準配置。

這裏是一個gcloud指令,你可以用它來創建一個Dataproc集羣(名爲「dplab」),其中包括Jupyter偵聽端口8124:

$ gcloud dataproc clusters create dplab \ 
--initialization-actions \ 
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
--metadata "JUPYTER_PORT=8124" \ 
--zone=us-central1-c 

然後從你的主機上運行此命令端口轉發到集羣主設備:

$ gcloud compute ssh dplab-m \ 
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c 

打開本地主機:8124在瀏覽器中,你應該看到Jupyter頁。

+2

太好了。斯卡拉在哪裏? – Emre

相關問題