-2
我開發了一個機器學習用例的python腳本,現在我想在spark的pyspark shell中執行該腳本。 我能馬上做到嗎?將Python腳本工作在火花使用pyspark
我開發了一個機器學習用例的python腳本,現在我想在spark的pyspark shell中執行該腳本。 我能馬上做到嗎?將Python腳本工作在火花使用pyspark
要使用Spark的內存分佈式處理能力,您需要使用pyspark API來定義Spark上下文並創建RDD(彈性分佈式數據集)。標準的python代碼可以在pyspark shell中運行,但是它與在單個節點上運行代碼相同。 Spark確實有自己的機器學習庫,但是通常這些特性並不像python中那樣豐富。希望這可以幫助。
我可以在pyspark中安裝所有的python模塊(如熊貓,sklearn等)嗎?如果是的話那麼該怎麼做? –
Python模塊的安裝獨立於PySpark。 假設你在Unix環境下工作。檢查您是否安裝了「pip」實用程序。 例如: 哪個pip 會給你的文件系統中的pip命令的位置。 如果「pip」可用,您可以嘗試: pip install pandas 取決於您的網站包的設置。您可能必須手動下載所有軟件包,並使其在您的Python存儲庫中可用,以便點子安裝它們。 如需進一步閱讀,這可能有所幫助:https://docs.python.org/3/installing/ – neko