多鍵我有兩個數據集:與Map-Reduce合併。在一個數據集
Dataset1:
Emp1 Emp2 Salary
Dataset2
Emp add1 add2 add3
的數據在數據集2由存在於EMP1或EMP2在數據集1中的所有員工。
生成的數據集需要擁有employess emp1和emp2的Dataset1和add1 add2 add3變量的每一行。
Dataset3
Emp1 Emp2 add1(emp1) add2(emp1) add3(emp1) add1(emp2) add2(emp2) add3(emp2)
它基本上是在2個數據集的合併,但是當我嘗試並獲得從第一個數據集的鍵,我可以在一列中得到EMP1 EMP2,可以在另一列得到EMP1 EMP3。我如何使用map reduce來實現這一點,因爲密鑰越來越困惑?
你可以做兩輪MapReduce嗎?在第一輪中,只需處理emp1。在第二輪中,完成emp2。 – zsxwing
我不知道我是否理解正確,但基本上,您有Dataset1,其中包含員工名單和他們的薪水;一個Dataset2包含所有員工的增量?你想要獲得的是「每位員工的最終薪水」? –
您可以在數據集1,數據集2和數據集3中添加更多行,並告訴我們Hadoop如何與密鑰混淆? –