2
我按照使用初始化腳本啓動Google DataProc羣集以啓動jupyter筆記本的說明。啓動Google DataProc羣集以與Jupyter筆記本一起使用時,如何添加額外的jar包?
我怎麼能包括在Jupyter筆記本電腦所產生的SparkContext(特別pyspark)額外的JAR文件(火花XML,例如)?
我按照使用初始化腳本啓動Google DataProc羣集以啓動jupyter筆記本的說明。啓動Google DataProc羣集以與Jupyter筆記本一起使用時,如何添加額外的jar包?
我怎麼能包括在Jupyter筆記本電腦所產生的SparkContext(特別pyspark)額外的JAR文件(火花XML,例如)?
答案稍微取決於您要加載的罐子。例如,你可以使用火花XML與創建羣集時,以下幾點:
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1
要指定多個Maven的座標,您將需要交換從gcloud字典分隔符「」別的東西(如我們需要使用分離的包安裝):如何轉義字符改變
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3
詳細信息可在gcloud發現:
$ gcloud help topic escaping