2016-10-07 74 views
1

發生RDD問題。 說,我有三個RDD,它們是RDD[AttribClass1]RDD[AttribClass2],RDD[AttriClass3],並且每個AttribClass都有一個字段名稱作爲id,我想要做的是將所有屬性組合成一個大的RDD,用於組合類,比如類是通過密鑰將多個RDD合併爲一個列

ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3) 

而我想通過加入ID來獲得RDD[ContainerClass]。 我看到一些類似的帖子,基於查找RDD的鍵,但不完全一樣。 Spark RDD find by key

有沒有人做過類似的事情?

創建新的RDD時沒有在本地進行組合的最佳方式是什麼?

感謝, 施

+0

添加一些說明: –

回答

0

沒關係,我想知道如何做到這一點是通過RDD API看的最好方式。這可以通過groupByKey方法,然後coGroup來完成。