2016-08-22 130 views
3

我想在python中使用12GB的數據,我迫切需要使用Spark,但我想我太愚蠢了,無法使用自己或通過互聯網使用命令行這就是爲什麼我想我必須轉向SO,如何使用python或jupyter筆記本電腦的火花

所以到目前爲止,我已經下載了火花和解壓tar文件或任何(是語言的抱歉,但我感到愚蠢和出),但現在我可以看到無處可去。我看過火花網站文檔的說明,它說:

Spark還提供了Python API。要在Python解釋器中以交互方式運行Spark,請使用bin/pyspark但在何處執行此操作?請請幫忙。 編輯:我使用Windows 10

注::要安裝的東西,主要是因爲我似乎無法理解的命令提示符

+0

您之前使用過Spark嗎?它的RDD類型界面並不是那裏最直觀的工具。如果您以前使用過熊貓,那麼嘗試使用SFrame?它可以加載任何大小的數據(比RAM大),但比Pandas慢。語法與Pandas幾乎相同。 – user1157751

+0

不,我需要使用火花,因爲我的團隊使用它,我必須在星期一進行分析後提交項目 –

回答

1

當你解壓縮文件時,我一直面臨的問題,將創建一個目錄。

  1. 打開終端。
  2. 使用cd導航到該目錄。
  3. 做一個ls。你會看到它的內容。 bin必須放置在某個地方 。
  4. 執行bin/pyspark或者也許./bin/pyspark

當然,在實踐中它不是那麼簡單的,你可能需要設置一些路徑,比如在TutorialsPoint說,但也有很多這樣的鏈接在那裏。

+0

感謝您的答案,我可以隨身攜帶,而我安裝它?請這將是一個很大的幫助。如果你想我們可以聊天 –

+0

@AuuragPandey我知道你的感受。不幸的是,我不能,我在工作。我發現這個很有幫助,接受它。如果您出現問題,請發佈一個新問題。 – gsamaras

3

如果你對jupyter筆記本比較熟悉,你可以安裝Apache Toree,它集成了pyspark,scala,sql和SparkR內核與Spark。

安裝toree

pip install toree 
jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark 
如果你想安裝其他內核

可以使用

jupyter toree install --interpreters=SparkR,SQl,Scala 

現在運行

jupyter notebook 

在UI的同時選擇新的筆記本電腦,你應該看到下面的內核可用

Apache Toree-Pyspark 
Apache Toree-SparkR 
Apache Toree-SQL 
Apache Toree-Scala 
+0

我可以在幾個問題後安裝,但我想我會嘗試你的方法在不同的機器上,謝謝 –

+0

@AuuragPandey這是個好消息!確保您在嘗試後接受答案! :) – gsamaras

0

我明白,你已經在Windows 10

你需要有winutils.exe可用,以及安裝的火花。如果你還沒有這樣做,從http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe下載文件,並在安裝比如說,C:\ winutils \ BIN

設置環境變量

HADOOP_HOME=C:\winutils 
SPARK_HOME=C:\spark or wherever. 
PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook 
PYSPARK_DRIVER_PYTHON_OPTS=notebook 

現在導航到C:在\星火目錄在命令提示符下輸入「pyspark」

Jupyter筆記本將在瀏覽器中啓動。 如圖所示創建一個spark上下文並運行計數命令。

enter image description here

相關問題