0
我正在與星火在java。我有一個JavaPairRDD命名輸出1結合兩個JavaPairRDD
輸出1:
IDCLIENT|INFO|
1|A|
1|C|
1|H|
5|R|
2|B|
,我想創建一個新的JavaPairRDD命名輸出2是一樣輸出1沒有第一行:
Out2:
IDCLIENT2|INFO|
1|C|
1|H|
5|R|
2|B|
之後,我想這兩個JavaPairRDD結合起來是這樣的:
Out3的:
IDCLIENT|INFO|IDCLIENT2|
1|A,C|1|
1|C,H|1|
1|H,R|5|
5|R,B|2|
2|B| |
注:我們不能用groupByKey
,因爲我們可以有相同的密鑰在不止一行中。
多大此數據集?你能用普通的Scala完成它嗎?如:out1.zip(out1.drop1).map {case(o1,o2)=> combine(o1,o2)}'? – maasg 2014-10-28 15:48:00