2015-04-05 44 views
1

我知道RDD是不可變的,但我想知道是否有方法可以基於某些條件更新RDD中的字段。我有辦法更新apache-spark RDD中的字段嗎?

幫助將非常感激。

謝謝 喬

+0

[Spark的RDD中更新值的有效方法是什麼?](http://stackoverflow.com/questions/24132271/what-is-the-efficient-way-to-update-value-inside -sparks-rdd) – 2015-04-05 19:08:45

+0

在這種情況下,你可以用'映射'(用'if'條件)'RDD',稍後使用更新後的'RDD'的引用。 – 2015-04-05 19:10:04

回答

0

他們是不可改變的,但由於oeprations的一些序列可以流水線(例如,map().flatMap().filter()...)集成到一個階段(JVM任務),這是非常有效的。允許變異會破壞正確性和可能的​​性能,因爲你不得不通過處理器重新傳輸數據來改變它(猜測)。

相關問題