所以我RDD由數據看起來像:創建與現有的鍵值列表的組合 - Pyspark
(k, [v1,v2,v3...])
我想創建一個價值部分的所有套二的組合。
所以最終圖應該是這樣的:
(k1, (v1,v2))
(k1, (v1,v3))
(k1, (v2,v3))
我知道得到的價值的一部分,我會使用類似
rdd.cartesian(rdd).filter(case (a,b) => a < b)
然而,這需要傳遞整個RDD(對吧?)不只是價值的一部分。我不確定如何達到我想要的目的,我懷疑它是一個羣體。
而且,最終,我想要得到的K,V看起來就像
((k1,v1,v2),1)
我知道如何從我所期待的該得到的,但也許它更容易直來直去那裏?
謝謝。
歡迎使用計算器。請格式化您的問題,擺脫縮寫,並[讀這篇文檔](http://stackoverflow.com/help/how-to-ask)。這會讓你的問題對未來的讀者有用。 –