我已經得到一個大的文本文件。用數據從公司的出租車。這個數據是組織在旅行之間。 例子:共享conf變量或使用兩個作業?哪個更好?
- 駕駛執照(32421ALED),票價(US $ 6)
- 駕駛執照(9167825HF),票價(US $ 15)
我Hadoop的地圖,減少計劃的目的是到返回收款金額最高的司機。
所以:
- 映射有一個標記處理文本文件,這樣,對於每一個旅遊,它assosiates每個駕駛員對票價許可證。
- 減速器需要映射器的輸出,然後通過添加所有的票價來獲得每個司機的收集的錢。
現在是什麼?我需要另一個減速器,這樣一旦我得到每個司機的收款金額,我只需要就可以收到收款金額最高的那個。這就是問題。
我搜索過計算器,我發現兩種可能的解決方案:
Sharing a Conf variable through the host包含的代收貨款的最大金額和它的驅動程序(可以是兩個)。
Use two jobs.第一個獲得每個司機的收集資金,第二個獲得最大的收款金額的司機。
這將是我的問題的最佳選擇?還有嗎?
感謝您的回答。唔,不會是一個選擇。 如果我使用分佈式緩存或Configuration.set()會怎麼樣? – Hernan
你想寫這個MapReduce程序來查找收集的最大金額的驅動程序。我無法理解你如何在Configuration.set()中設置最大的數量?如果你已經知道,那麼編寫這個程序的目的是什麼?請你清楚一點 – Meeran0823