我想在python中使用12GB的數據,我迫切需要使用Spark,但我想我太愚蠢了,無法使用自己或通過互聯網使用命令行這就是爲什麼我想我必須轉向SO,如何使用python或jupyter筆記本電腦的火花
所以到目前爲止,我已經下載了火花和解壓tar文件或任何(是語言的抱歉,但我感到愚蠢和出),但現在我可以看到無處可去。我看過火花網站文檔的說明,它說:
Spark還提供了Python API。要在Python解釋器中以交互方式運行Spark,請使用bin/pyspark
但在何處執行此操作?請請幫忙。 編輯:我使用Windows 10
注::要安裝的東西,主要是因爲我似乎無法理解的命令提示符
您之前使用過Spark嗎?它的RDD類型界面並不是那裏最直觀的工具。如果您以前使用過熊貓,那麼嘗試使用SFrame?它可以加載任何大小的數據(比RAM大),但比Pandas慢。語法與Pandas幾乎相同。 – user1157751
不,我需要使用火花,因爲我的團隊使用它,我必須在星期一進行分析後提交項目 –