Q

pyspark;如何通過價值有效地降低

2015-07-21 71 views 2 likes

2

讓我們考慮對RDD：pyspark;如何通過價值有效地降低

x = sc.parallelize([("a", 1), ("b", 1), ("a", 4), ("c", 7)])

有沒有更有效的替代：

x.map(lambda x: x[1]).reduce(lambda x, y: x+y)

，以便找到所有值的總和

2015-07-21 ranlot

+0

有sum'和'減少（拉姆達X，Y之間'中執行策略小差：x + y）'但我懷疑這會對性能產生顯着影響。 – zero323

A

回答

2

由於x是PairRDD可以使用，而不是手動提取值values方法：

x.values().sum()

2015-07-21 13:10:32 zero323

2

x.map(lambda x: x[1]).sum()

有一個 sum方法

總和（個人）源代碼

將此RDD中的元素相加。

sc.parallelize([1.0, 2.0, 3.0]).sum() 
6.0

2015-07-21 12:59:55 ccheneson

相關問題

11. 我如何通過價值
12. 如何通過價值
13. 如何通過價值
14. ffmpeg：如果超過閾值則降低fps，但如果低於閾值則不降低
15. 通過篩選值RDD PySpark
16. 如何有效地按價值訂購地圖？
17. 爲了通過降低信心在MySQL
18. MediaStore.Images.Media通過降低存儲到畫廊
19. 通過IoC降低相關性
20. Html.ActionLink沒有通過價值
21. 如何降低com.smartgwt.client.widgets.form.fields.SelectItem
22. 添加選項以降低價值，如果它不存在？
23. 通過價值
24. 通過價值
25. 通過價值
26. 通過價值
27. 通過價值
28. 如何降低邊距的寬度值？
29. 如何降低數組中的值？
30. OpenWRT - 如何降低有效傳輸功率或距離？