在Dataproc上運行Spark + Scala + Jupyter

我還沒有設法讓Spark，Scala和Jupyter進行合作。有沒有人有一個簡單的配方？你使用哪個版本的每個組件？在Dataproc上運行Spark + Scala + Jupyter

2016-06-28 Emre

相反，你可以使用飛艇 –

事實上，這是工作的開箱一個很好的選擇。但是，哇，筆記本電腦的半個技嘉？他們在做什麼？我將繼續討論這個問題，直到有人展示如何讓Jupyter與Scala和Spark一起工作。在此期間，我將使用Zeppelin。感謝您的建議。 – Emre

它支持許多解釋器，這些解釋器捆綁在相同的二進制文件中，因爲zeppelin二進制文件非常大。但是它們將在0.6版本中刪除該解釋器，並提供外部實用程序來安裝用戶需要的解釋器 –

Apache Toree與DataProc的1.0圖像兼容，該圖像目前包含Spark 1.6.1。我沒有成功地將它用於包含Spark 2.0預覽的預覽圖像。要在DataProc主安裝Toree可以運行

sudo apt install python3-pip 
pip3 install --user jupyter 
export SPARK_HOME=/usr/lib/spark 
pip3 install --pre --user toree 
export PATH=$HOME/.local/bin:$PATH 
jupyter toree install --user --spark_home=$SPARK_HOME

來源

2016-06-30 18:04:48 Emre

有趣。他們的版本文檔暗示它不應該兼容：https：//github.com/apache/incubator-toree#version。 –

1.6.1符合「1.5.1+」，這就是他們所說的。至少它_seems_工作;我剛開始測試。 – Emre

Spark是Dataproc集羣的標準配置。

這裏是一個gcloud指令，你可以用它來創建一個Dataproc集羣（名爲「dplab」），其中包括Jupyter偵聽端口8124：

$ gcloud dataproc clusters create dplab \ 
--initialization-actions \ 
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
--metadata "JUPYTER_PORT=8124" \ 
--zone=us-central1-c

然後從你的主機上運行此命令端口轉發到集羣主設備：

$ gcloud compute ssh dplab-m \ 
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

打開本地主機：8124在瀏覽器中，你應該看到Jupyter頁。

來源

2016-06-29 17:50:26

太好了。斯卡拉在哪裏？ – Emre

在Dataproc上運行Spark + Scala + Jupyter

回答

相關問題