2
我已經編寫了用於劃分數據集的自定義劃分器。我想要使用相同的分區程序對兩個數據集進行分區,然後在下一個mapreduce作業中,我希望每個映射程序都能處理來自兩個源的相同分區並執行一些功能,例如加入等。我如何確保一個映射程序獲取拆分對應於來自兩個源的相同分區?劃分的數據映射/減少
任何幫助將不勝感激。
我已經編寫了用於劃分數據集的自定義劃分器。我想要使用相同的分區程序對兩個數據集進行分區,然後在下一個mapreduce作業中,我希望每個映射程序都能處理來自兩個源的相同分區並執行一些功能,例如加入等。我如何確保一個映射程序獲取拆分對應於來自兩個源的相同分區?劃分的數據映射/減少
任何幫助將不勝感激。
你所描述的是地圖邊連接的一種變體。 Pro Hadoop或org.apache.hadoop.mapred.join的第8章