2014-02-17 57 views
1

我有一份特殊的豬工作,通常需要12分鐘左右的時間才能運行,但每天有幾次它會陷入奇怪的狀態。這項工作有6張地圖和1個減少任務。它成功地完成了第一個地圖任務,然後它保持「擱置」幾個小時(永遠!)。作業跟蹤器顯示有5張地圖,1個正在等待,但沒有任何任務正在運行。沒有任務顯示任何錯誤。地圖任務不會啓動,但不會發生錯誤。爲什麼掛起的地圖任務不能啓動?

我怎樣才能弄清楚爲什麼這些任務不能啓動?

我已經嘗試過增加工作優先級,並且我已驗證有可用的地圖和減少插槽。運行的一張地圖的任務日誌看起來完全正常。有沒有其他的日誌可以告訴我發生了什麼?

我使用Cloudera CDH4.5和MR1。小羣集有5個節點。

+0

只是爲了確定...是否有組合器? – vefthym

+0

根據豬的日誌沒有組合器。 – Marquez

回答

1

查看第一個地圖任務的日誌 - 它可能已失敗。我遇到了許多第一個地圖任務失敗的情況,但據報告是成功的,而後來的任何地圖任務都沒有開始。

+0

運行的一個地圖顯示了正向地圖輸入和輸出記錄計數。底部的任務日誌表示「啓動地圖輸出刷新」,「已完成,正在進行提交」和「已完成任務」。我在整個地圖任務日誌中找不到任何異常或錯誤。它看起來像一個成功的地圖任務。 – Marquez

+0

我有同樣的問題(當我的表格導出到S3時)。我發現基於這個問題的解決方案:https://stackoverflow.com/questions/24747427/hadoop-yarn-job-is-getting-stucked-at-map-0-and-reduce-0我已經評論了內存配置mapred-site.xml和yarn-site.xml並重新啓動我的主站(單節點)。 – sebge2