您需要配置pyspark內核。
在我的服務器位於jupyter內核:
/usr/local/share/jupyter/kernels/
您可以通過一個新的目錄中創建一個新的內核:
mkdir /usr/local/share/jupyter/kernels/pyspark
然後創建kernel.json文件 - 我粘貼我作爲參考:
{
"display_name": "pySpark (Spark 1.6.0)",
"language": "python",
"argv": [
"/usr/local/bin/python2.7",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"PYSPARK_PYTHON": "/usr/local/bin/python2.7",
"SPARK_HOME": "/usr/lib/spark",
"PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
"PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
}
}
調整路徑a nd python版本和你的pyspark內核是很好的去。
我認爲spark-submit僅適用於jar文件。 – arj
它也適用於python腳本(至少在新版本中) –
我明白了。因此,通過這種方式,我在Spark Cluster(本地,獨立,mesos或yarn)中運行JupyterHub本身,並且假設打開一個新的python筆記本將加載sparkcontext和spark API。這樣對嗎? 哦,我從斌/ pyspark看到準備的變量後執行 的exec「$ SPARK_HOME」 /斌/火花提交pyspark殼主「$ @」 – arj