2017-03-31 69 views
1

所以,讓我們說我有以下兩個RDDS: (這些只是每個RDD前幾行)如何在Spark(Scala)中組合兩個RDD?

RDD1集:

Time     Temp 
2014-08-12 13:20:00 22 
2014-08-12 13:21:00 24 
2014-08-12 13:24:00 26 
2014-08-12 13:26:00 27 
2014-08-12 13:28:00 22 

RDD2:

Time     Age 
2014-08-12 13:20:00 45 
2014-08-12 13:21:00 45 
2014-08-12 13:24:00 46 
2014-08-12 13:26:00 37 
2014-08-12 13:28:00 122 

我想要將它們組合起來,使得RDD2的列被添加到RDD1。我不能使用union,因爲這隻會將RDD2添加到RDD1的底部,而我想將它添加到「一側」,如果這樣做合理的話。

+0

您需要加入它們 –

回答

5

join會讓你「並排」地加入這些RDD。從該文檔:

當呼籲(K,V)和(K,W)類型的數據集,則返回(K,(V,W))對與所有對的元素的每個鍵的數據集。外連接通過leftOuterJoin,rightOuterJoin和fullOuterJoin支持。

相關問題