我有一對RDD (K, V)
與密鑰包含time
和ID
。我想得到一個形式爲(K, Iterable<V>)
的Pair RDD,其中鍵由id分組,並且迭代按時間排序。Spark按鍵排序,然後按組排序以獲得有序迭代?
我目前使用的是sortByKey().groupByKey()
,我的測試似乎證明它可行,但我在閱讀時可能並非總是如此,正如在這個問題中分歧的回答(Does groupByKey in Spark preserve the original order?)所討論的那樣。
它是否正確?
謝謝!
如果您需要更好的答案,請對其他問題給予獎勵。這是你提到的問題的重複。 –