pyspark

1熱度

1回答

我試圖通過星火兩列做組和正在使用reduceByKey如下： pairsWithOnes = (rdd.map(lambda input: (input.column1,input.column2, 1))) print pairsWithOnes.take(20) 上述地圖命令工作正常，併產生三列，第三個是所有那些。我試圖通過前兩列求和的第三如下： reduced = pairsWithO

1熱度

2回答

在PySpark加入2 RDD治療的每一個元素時，作爲一個元組

我不知道如何準確地形容它，但例子是：舉兩個RDDS： x = sc.parallelize([("a", 1), ("b", 4)]) y = sc.parallelize([("a", 2), ("c", 8)]) ，我想得到結果： [(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4), ("a", 2)), (("b", 4), ("c

7熱度

2回答

如何從PySpark上下文

甲previous question建議sc.applicationId提取應用程序ID，但它是不本在PySpark，僅在scala。那麼，如何找出PySpark進程的應用程序ID（yarn）？

0熱度

1回答

Spark（pyspark）在工作節點上調用統計方法時遇到困難

我在運行pyspark（來自ipython-notebook）時遇到了庫錯誤，我想在我的RDD的.mapValues操作中使用Statistics.chiSqTest(obs)pyspark.mllib.stat，，list（int））對。的主節點，如果我收集RDD作爲地圖，並逐一查看這些值，像這樣我沒有問題 keys_to_bucketed = vectors.collectAsMap()

22熱度

6回答

Spark 1.4增加maxResultSize內存

我正在使用Spark 1.4進行我的研究並正在努力處理內存設置。我的機器有16GB內存，所以沒有問題，因爲我的文件大小隻有300MB。雖然，當我嘗試使用toPandas()功能我收到以下錯誤星火RDD轉換成數據幀熊貓： serialized results of 9 tasks (1096.9 MB) is bigger than spark.driver.maxResultSize (1024.

16熱度

2回答

如何使用Apache Spark（pyspark）的自定義類？

我寫了一個類在python中實現分類器。我想使用Apache Spark來並行分類使用此分類器的大量數據點。我使用Amazon EC2在具有10個從屬設備的集羣上設置了基於ami的自帶python Anaconda發行版。 ami讓我可以遠程使用IPython Notebook。我已經定義了類BoTree在一個文件中調用BoTree.py在文件夾/root/anaconda/lib/pytho

0熱度

1回答

PySpark廣播值字典

有內容的PySpark廣播值如下： [('b000jz4hqo', {'rom': 2.4051362683438153, 'clickart': 56.65432098765432, '950': 254.94444444444443, 'image': 3.6948470209339774, 'premier': 9.27070707070707, '000': 6.2181571815718

7熱度

1回答

錯誤：必須指定一個主資源（JAR或Python或R檔） - IPython的筆記本

我嘗試運行IPython的筆記本阿帕奇星火，按照這個insruction（和評論都建議） - link 但是，當我通過這個命令運行IPython的筆記本電腦： ipython notebook --profile=pyspark 我得到這個錯誤： Error: Must specify a primary resource (JAR or Python or R file) 如果我在she

0熱度

1回答

不同的名單內RDD的，而不是整個RDD

我有這樣的RDD：[(1,1,2),(2,2,3)] 我想有：[1,2,2,3] 提示：中間步：(1,2),(2,3) 我的代碼： suchRDD.flatMap(lambda k:k).distinct() ..會產生： [1,2,3] 這不是我想要的。（請不要介意不同類型的大括號）如何減少每個嵌套列表，然後展平得到想要的結果？（請沒有列表理解的例子，提醒：這是星火）

1熱度

2回答

如何使用Python在Spark中對LIBSVM文件進行特徵選擇和縮減？

我有幾個LIBSVM文件，我必須使用python在Spark中實現羣集。該文件具有空間作爲分隔符，第一列代表類型[1或-1]，其餘全部爲格式爲[1：2.566]的功能。有很多像這樣的列，我想對此進行特徵選擇[最好實現ChiSquareTest模型]，然後使用PCA或SVD執行特徵縮減過程。但是，我無法找到一個體面的python火花教程來實現這些過程。我發現一個link在線，它有一個示例腳本來實現