啓動Google DataProc羣集以與Jupyter筆記本一起使用時，如何添加額外的jar包？

2017-09-07 19 views 2 likes

我按照使用初始化腳本啓動Google DataProc羣集以啓動jupyter筆記本的說明。啓動Google DataProc羣集以與Jupyter筆記本一起使用時，如何添加額外的jar包？

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

我怎麼能包括在Jupyter筆記本電腦所產生的SparkContext（特別pyspark）額外的JAR文件（火花XML，例如）？

來源

2017-09-07 seandavi

回答

答案稍微取決於您要加載的罐子。例如，你可以使用火花XML與創建羣集時，以下幾點：

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1

要指定多個Maven的座標，您將需要交換從gcloud字典分隔符「」別的東西（如我們需要使用分離的包安裝）：如何轉義字符改變

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3

詳細信息可在gcloud發現：

$ gcloud help topic escaping

來源

2017-09-07 22:38:00

相關問題