2016-07-29 61 views

回答

1

要使用Spark的內存分佈式處理能力,您需要使用pyspark API來定義Spark上下文並創建RDD(彈性分佈式數據集)。標準的python代碼可以在pyspark shell中運行,但是它與在單個節點上運行代碼相同。 Spark確實有自己的機器學習庫,但是通常這些特性並不像python中那樣豐富。希望這可以幫助。

+0

我可以在pyspark中安裝所有的python模塊(如熊貓,sklearn等)嗎?如果是的話那麼該怎麼做? –

+0

Python模塊的安裝獨立於PySpark。 假設你在Unix環境下工作。檢查您是否安裝了「pip」實用程序。 例如: 哪個pip 會給你的文件系統中的pip命令的位置。 如果「pip」可用,您可以嘗試: pip install pandas 取決於您的網站包的設置。您可能必須手動下載所有軟件包,並使其在您的Python存儲庫中可用,以便點子安裝它們。 如需進一步閱讀,這可能有所幫助:https://docs.python.org/3/installing/ – neko