除了正確導入軟件包之外,pyspark
實際上在做什麼?是否可以使用常規的jupyter notebook
然後導入需要的內容?用定期的Jupyter筆記本導入PySpark軟件包
回答
是的,這是可能的,但可以是痛苦的。儘管Python本身並不是問題,並且您只需要設置$SPARK_HOME
,那麼請添加$SPARK_HOME/python
(如果不能以其他方式訪問),PySpark腳本也會處理JVM設置(例如,--packages
,--jars
,等)。
這可以使用PYSPARK_SUBMIT_ARGS
變量或使用$SPARK_HOME/conf
(例如參見How to load jar dependenices in IPython Notebook)來處理。
有一箇舊的blog post from Cloudera,它描述了示例配置,並且據我所知,仍然有效。
如果我想發送我自己的具有幾個類的'py'庫,等等如何? –
@AlbertoBonsanto像往常一樣。如果可能的話,安裝在工作人員上或使用PyFiles發送。你有沒有遇到任何問題? – zero323
該文檔非常含糊,我試圖在沒有任何「Python」或「Scala」中產生任何積極結果的情況下做到這一點,我必須再次嘗試。 –
你可以考慮爲Jupyter創建一個pySpark內核 - 它會爲你導入pyspark包。
創建文件(需要先創建目錄;對於舊版本,可能在其他地方設):
~/.local/share/jupyter/kernels/pyspark/kernel.json
具有以下內容:
{
"display_name": "pySpark (Spark 1.6.0)",
"language": "python",
"argv": [
"/usr/bin/python2",
"-m",
"IPython.kernel",
"-f",
"{connection_file}"
],
"env": {
"SPARK_HOME": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6",
"PYTHONPATH": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/:/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip",
"PYTHONSTARTUP": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "pyspark-shell"
}
}
變化適當星火的路徑。
假定您尚未創建的背景下,我喜歡設置爲使用PYSPARK_SUBMIT_ARGS
提交ARGS:
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-memory 15g --packages com.databricks:spark-csv_2.10:1.3.0 pyspark-shell'
- 1. 從任何目錄下引入Jupyter筆記本導入pyspark
- 2. 導入器錯誤,當我的筆記本jupyter筆記本
- 3. Jupyter筆記本中使用的軟件包列表版本的包裝
- 4. 導入錯誤時jupyter筆記本
- 5. 導入matplotlib.pyplot jupyter筆記本崩潰
- 6. 將pycharm項目導入jupyter筆記本
- 7. Tensorflow在Jupyter筆記本導入錯誤
- 8. jupyter筆記本上導入失敗
- 9. 在Ipython筆記本中導入軟件包
- 10. Dataproc:Jupyter pyspark筆記本無法導入graphframes包
- 11. PySpark(本地)與Jupyter筆記本上的Python編程
- 12. Ipyton筆記本/ jupyter
- 13. ipywidgets jupyter筆記本
- 14. 在Jupyter筆記本
- 15. Jupyter筆記本:導入錯誤:無法導入名稱「default」
- 16. 在jupyter筆記本(pyspark)中使用Seaborn時出錯
- 17. 閱讀圖像中Jupyter筆記本Jupyter筆記本
- 18. 如何導出整個Jupyter筆記本?
- 19. jupyter筆記本X引導程序
- 20. opencv.imshow會導致jupyter筆記本崩潰
- 21. jupyter筆記本的Mac
- 22. 無法使用Jupyter筆記本導入附魔
- 23. 不能用ipython/jupyter筆記本導入matplotlib
- 24. 無法集中輸入Jupyter筆記本
- 25. 如何在jupyter筆記本中設置pyspark默認上下文?
- 26. 如何在jupyter筆記本上集成pyspark
- 27. 在HDInsight的Jupyter筆記本上導入自己的模塊
- 28. jupyter: '筆記本' 不是Jupyter命令
- 29. jupyter筆記本導入錯誤:沒有名爲'matplotlib'的模塊
- 30. Jupyter筆記本不信任
對'pyspark'沒什麼,只是想了解星火(PySpark)是如何工作的。 –