我已經設計,其中每個映射函數是假設其輸入(包含多個CSV記錄文件分割)加載到一個數據結構,並且對其進行處理,而不是通過加工線的系統線。將會有多個映射器,因爲我將處理數百萬條記錄,因此一個映射器完全沒有效率。加載文件分割的hadoop映射函數的輸入到數據結構
我從例子中看到的單詞計數,該映射函數由線讀取線。幾乎和map函數一樣,它爲每個從它接收到的分割線中調用。我相信這張地圖的輸入應該是完整的行本身,而不是一次發送一行。
Reduce函數手頭有其他任務。所以我想,地圖功能可以調整以完成其分配的任務。
是否有解決辦法?
幫助讚賞。
乾杯
Thx供您參考。我沒有考慮過使用2個mapreduce作業。每個作業中的地圖功能僅僅是Identitymapper,不需要處理。作業中的減速器具有實際的功能。所以我打算簡單地依次運行它們。我打算從第一份工作中將縮減者直接發送給第二份工作的映射器,而不寫入磁盤。這可以實現嗎? – stholy
後續問題:http://stackoverflow.com/questions/13369260/running-multiple-mapreduce-jobs-with-oozie – stholy