2012-11-26 49 views
1

我們有一個場景,我們希望單個Hadoop作業創建/管理多個映射器任務,其中每個映射器任務將查詢關係數據庫表中的一列子集。我們研究了DataDrivenDBInputFormat,但這似乎只是促進了分區,其中每個映射器任務都可以查詢關係數據庫表中的行的子集。映射器任務在不同的數據庫列上工作

欣賞這方面的任何建議。謝謝。

+0

您正在使用哪個數據庫? –

+0

而映射器工作在相同的行上,只是不同的列,對吧? –

+0

Oracle。是的,映射器針對相同的行,只是不同的列。 –

回答

0

我建議你編寫一個讀取兩組列的聯合的映射器。您可以在同一個映射器中執行多個映射器任務,或者僅將數據轉儲爲具有多個後續映射器的順序文件,僅使用該文件所需的數據。這取決於這兩組映射器輸出之間的相關程度,以及它們在多快的時間內(如果有的話)在流程後面輸入相同的hadoop步驟。

相關問題