2013-04-24 75 views
0

mapreduce任務:通過Pig中的兩個稍微不同的鍵加入

file_one中的Key1是a1,a2,a3,a10,a11,a12; file_two中的Key2是persona1,persona1,persona2,persona3,persona12,persona12,persona3,persona11,persona10。

Merge_file = JOIN file_one BY鍵1,file_two由密鑰2 ??(怎麼寫這個..)

而且,由於第二個鍵有重複,有什麼關係?

感謝

+0

什麼會附加字段對陣?你想要完成什麼? – TC1 2013-04-24 09:35:36

回答

0

我的建議是,爲每個數據集創建新列,並加入對,例如:

A = foreach file_one generate *, join_key1 as SUBSTRING(key1, 1, 100); 
B = foreach file_two generate *, join_key2 as SUBSTRING(key2, 7, 100); 
C = join A by join_key1, B by join_key2; 
相關問題