Q

計數使用<em>pyspark</em>

2016-03-02 51 views 1 likes

1

，我有一個RDD它看起來像這樣計數使用<em>pyspark</em>

[("a", 0), ("b", 1), ("a", 1), ("a", 0)]

我希望做的是建立另一個RDD與計數第一個字段基於第三個字段。這樣有效地將是：

[("a", 0, 2), ("a", 1, 1), ("b", 1, 1)]

這意味着有兩個實例「一」與第三字段等於0，且存在的一個實例「A」與第三字段等於1，並且有一個實例「b」與第三字段等於1

的我可以很容易地通過使用reduceByKey作爲

RDD = sc.parallelize（[（「一」獲得第一場的不同計數0,2），（「a」，1,1），（「b」，1,1）]）

.MAP（拉姆達行：（行[0]，1））

.reduceByKey（添加）

但這隻會給我的「A」和「B」的計數不管第三場。我將如何獲得這個呢？

2016-03-02 mar tin

A

回答

2

如果將其理解你的問題很好，你很可能在尋找這樣的事情：

from operator import add 

rdd = sc.parallelize([("a", 0), ("b", 1), ("a", 1), ("a", 0)]) 
     .map(lambda row: ((row[0],row[1]), 1)) 
     .reduceByKey(add) 
     .map(lambda row : (row[0][0],row[0][1],row[1])) 
print(rdd.collect()) 

# [('a', 1, 1), ('a', 0, 2), ('b', 1, 1)]

2016-03-02 10:52:00 eliasah

相關問題

1. ASP.NET如何使用計數器與'<％=
2. 使用jQuery計算<input type =「date」
3. 計數以< = or >
4. 計數連續串在使用功能，如<strong>RLE</strong>或<strong>cumsum</strong>多組
5. 使用計數
6. Perl如何使用<<參數
7. 是<Collection>。使用昂貴的計數？
8. 使用列表中的int <5計算元素<T>
9. RoR - 測試錯誤 - 預計<「categories/new」>但使用<[]>
10. 使用<< END

11. 使用函數庫而不使用<import>或<include>
12. 數據使用<code>pyodbc</code>使用pyodbc
13. 使用計數器
14. 計數（）使用笨
15. 使用jquery計數
16. 計數使用javascript
17. SQL - 使用計數
18. 計數使用JoinInner
19. 使用計數法
20. 計數使用PHP
21. 使用計數器
22. 使用Linq計數
23. 計數使用VBA
24. 使用SQL計數數據
25. 使用SQL計數數據
26. SQL使用計數（*）函數
27. 使用位計數倒數
28. 使用計數函數SQL
29. NHibernate的session.Query <ISomeInterface>（）計數返回錯誤計數
30. 使用PyDict_SetItemString引用計數