正確Linux上

配置PySpark和Anaconda3這裏是我到目前爲止所採取的步驟：正確Linux上

這裏設置變量的一些重要的細節：

這裏是我的目標：

目標。按照添加變量或配置某些文件的方式進行操作，以便可以在Jupyter Notebook上運行pyspark。

爲了實現這個目標，我需要在步驟3之後執行哪些其他步驟？

如果你想使用安裝在Jupyter筆記本內的Anaconda中的模塊，那麼你最好的選擇是在你的Anaconda上運行Jupyter本身。 –

我該怎麼做？ –

我不太熟悉Jupyter肯定地說。這可能與確保Anaconda的bin /目錄位於路徑的開始處一樣簡單。它可能需要在Anaconda中安裝自己的Jupyter副本。還有其他的可能性。 –

既然你已經安裝了pyspark與conda，正如你說的Jupyter筆記本電腦運行正常（大致是相同的蟒蛇分佈），有需要進一步的步驟 - 你應該能夠打開一個新的筆記本電腦和。

注意，雖然安裝pyspark的方式（即pip或conda）只提供有限的功能;從包docs：

Spark的Python包裝並不打算取代所有其他用例。此Python打包版本的Spark適用於與現有羣集（不管是Spark獨立，YARN還是 Mesos）進行交互的 - 但不包含設置您自己的獨立Spark羣集所需的工具。您可以從Apache Spark下載頁面下載完整版的Spark 。

與pip或conda安裝pyspark是一個相對較新的add-on，目的是在上述的文檔描述的情況。我不知道你可能面臨什麼限制（從來沒有嘗試過），但是如果你需要完整的功能，你應該下載完整的Spark發行版（其中pyspark是一個不可或缺的部分）。

2017-10-15 16:55:46 desertnaut

回答