我還沒有設法讓Spark,Scala和Jupyter進行合作。有沒有人有一個簡單的配方?你使用哪個版本的每個組件?在Dataproc上運行Spark + Scala + Jupyter
回答
Apache Toree與DataProc的1.0圖像兼容,該圖像目前包含Spark 1.6.1。我沒有成功地將它用於包含Spark 2.0預覽的預覽圖像。要在DataProc主安裝Toree可以運行
sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME
有趣。他們的版本文檔暗示它不應該兼容:https://github.com/apache/incubator-toree#version。 –
1.6.1符合「1.5.1+」,這就是他們所說的。至少它_seems_工作;我剛開始測試。 – Emre
Spark是Dataproc集羣的標準配置。
這裏是一個gcloud指令,你可以用它來創建一個Dataproc集羣(名爲「dplab」),其中包括Jupyter偵聽端口8124:
$ gcloud dataproc clusters create dplab \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--metadata "JUPYTER_PORT=8124" \
--zone=us-central1-c
然後從你的主機上運行此命令端口轉發到集羣主設備:
$ gcloud compute ssh dplab-m \
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c
打開本地主機:8124在瀏覽器中,你應該看到Jupyter頁。
太好了。斯卡拉在哪裏? – Emre
- 1. Dataproc上的Spark 2.0和Scala 2.11?
- 2. 運行scala windows spark
- 3. 在Dataproc上運行自定義的spark構建?
- 4. 如何在Dataproc上安裝Jupyter/iPython?
- 5. 如何配置Hive在Google Dataproc上使用Spark執行引擎?
- 6. 在Jupyter上使用Spark Kernel
- 7. 運行Scala和Spark錯誤
- 8. Google Dataproc上的Spark UI在哪裏?
- 9. 如何在DataProc上運行Spark時對新作業進行排隊
- 10. Executor心跳超時DataProc上的Spark
- 11. KeyError:在Google-Cloud-DataProc上的Jupyter上的pyspark上的'SPARK_HOME'
- 12. 在Spark Scala shell中運行OutOfMemory異常
- 13. 在Scala代碼中運行spark-submit
- 14. Toree Jupyter for Spark 2.2.0
- 15. 在Spark Array上並行運行的Scala函數?
- 16. Dataproc集羣上可用的Spark UI?
- 17. 在Mac上運行Scala Spark應用程序
- 18. 如何在Mesos上運行Spark Spark shell?
- 19. 在Windows上運行Spark Slave
- 20. 在Android上運行scala
- 21. 如何在Google Dataproc上運行兩個並行作業
- 22. NoSuchMethodError StorageObject.getTimeCreated在Dataproc中運行作業
- 23. 在Jupyter Notebook中運行Tensorflow
- 24. 在Jupyter中運行Cython iPython
- 25. 在Jupyter cdef運行Cython
- 26. 爲什麼Spark(在Google Dataproc上)不使用所有的核心?
- 27. IllegalArgumentException:u'requirement失敗:在谷歌DataProc Spark上無效的初始容量'
- 28. Google Dataproc商店Spark在磁盤上登錄?
- 29. 使用IPython和Jupyter筆記本運行Spark應用程序
- 30. 爲Jupyter(Anaconda)安裝Scala內核(或Spark/Toree)
相反,你可以使用飛艇 –
事實上,這是工作的開箱一個很好的選擇。但是,哇,筆記本電腦的半個技嘉?他們在做什麼?我將繼續討論這個問題,直到有人展示如何讓Jupyter與Scala和Spark一起工作。在此期間,我將使用Zeppelin。感謝您的建議。 – Emre
它支持許多解釋器,這些解釋器捆綁在相同的二進制文件中,因爲zeppelin二進制文件非常大。但是它們將在0.6版本中刪除該解釋器,並提供外部實用程序來安裝用戶需要的解釋器 –