2017-10-13 123 views
0

配置PySpark和Anaconda3這裏是我到目前爲止所採取的步驟:正確Linux上

  1. 我安裝Anaconda3和包含在目錄$HOME/anaconda3/bin一切。
  2. 我cd'ed到$HOME/anaconda3/bin並運行命令./conda install -c conda-forge pyspark。它成功了。
  3. 我什麼也沒做。更具體地講,有沒有在我的.bashrc

這裏設置變量的一些重要的細節:

  • 我運行Hadoop的分佈式集羣上,所以有可能是我的主文件夾以外的其他目錄,我還沒有發現,但我可能需要。我也沒有管理員權限。
  • Jupyter筆記本運行得很好。

這裏是我的目標:

目標。按照添加變量或配置某些文件的方式進行操作,以便可以在Jupyter Notebook上運行pyspark。

爲了實現這個目標,我需要在步驟3之後執行哪些其他步驟?

+0

如果你想使用安裝在Jupyter筆記本內的Anaconda中的模塊,那麼你最好的選擇是在你的Anaconda上運行Jupyter本身。 –

+0

我該怎麼做? –

+0

我不太熟悉Jupyter肯定地說。這可能與確保Anaconda的bin /目錄位於路徑的開始處一樣簡單。它可能需要在Anaconda中安裝自己的Jupyter副本。還有其他的可能性。 –

回答

0

既然你已經安裝了pyspark與conda,正如你說的Jupyter筆記本電腦運行正常(大致是相同的蟒蛇分佈),有需要進一步的步驟 - 你應該能夠打開一個新的筆記本電腦和​​。

注意,雖然安裝pyspark的方式(即pipconda)只提供有限的功能;從包docs

Spark的Python包裝並不打算取代所有 其他用例。此Python打包版本的Spark適用於與現有羣集(不管是Spark獨立,YARN還是 Mesos)進行交互的 - 但不包含設置您自己的 獨立Spark羣集所需的工具。您可以從Apache Spark下載頁面下載完整版的Spark 。

pipconda安裝pyspark是一個相對較新的add-on,目的是在上述的文檔描述的情況。我不知道你可能面臨什麼限制(從來沒有嘗試過),但是如果你需要完整的功能,你應該下載完整的Spark發行版(其中pyspark是一個不可或缺的部分)。