我有一個hadoop作業,它是由oozie和pig腳本安排的,但問題是作業始終處於掛起狀態,並且在jobtracker/tasktracker日誌中看不到任何明確的erros/exceptions。如何確定hadoop作業正在等待的原因?
有沒有人在如何識別根本原因方面有類似的經驗?謝謝。
看下面的截圖,問題是map/reduce任務處於等待狀態超過21小時。
這裏是從作業服務器日誌,並沒有有關該作業的任務跟蹤日誌中發現:
2012-05-09 14:57:19552 INFO org.apache.hadoop。 mapred.JobQueuesManager:Job job_201205091453_0007每天提交隊列 2012-05-09 14:57:19,552 INFO org.apache.hadoop.mapred.JobTracker:Job job_201205091453_0007已成功添加用戶'mapred'以排隊'daily' 2012-05 -09 14:57:19,552 INFO org.apache.hadoop.mapred.AuditLogger:USER = mapred IP = 10.40.31.234 OPERATION = SUBMIT_JOB TARGET = job_201205091453_0007 RESULT = SUCCESS 2012-05-09 14:57:22,966 INFO org.apache.hadoop.mapred.JobInitializationPoller:傳遞到初始化程序作業ID:job_201205091453_0007用戶:mapred隊列:每天 2012-05-09 14:57:24,086 INFO org.apache .hadoop.mapred.JobInitializationPoller:初始化作業:job_201205091453_0007每天在隊列中對於用戶:mapred 2012-05-09 14:57:24,086 INFO org.apache.hadoop.mapred.JobTracker:初始化作業_201205091453_0007 2012-05-09 14: 57:24,086信息org.apache.hadoop.mapred.JobInProgress:初始化作業_201205091453_0007 2012-05-09 14:57:24,239 INFO org.apache.hadoop.mapred.JobInProgress:jobToken生成並使用用戶密鑰存儲在/ var/lib中/hadoop-0.20/system/job_201205091453_0007/jobToken 2012-05-09 14:57:24,243信息org.apache.hadoop.mapred.JobInProgress:作業的輸入大小job_201205091453_0007 = 48.分割數= 1 2012-05-09 14:57:24,243 INFO org.apache.hadoop.mapred.JobInProgress:tip:task_201205091453_0007_m_000000已在節點上分割:/ default-rack/hzs-ubt-elou 2012-05-09 14:57: 24,243 INFO org.apache.hadoop.mapred.JobInProgress:作業job_201205091453_0007已成功初始化,其中包含1個地圖任務和1個減少任務。
你有沒有可用的地圖插槽? (發佈作業跟蹤器首頁的屏幕截圖) –
@ChrisWhite,我遇到了同樣的問題。我確實有免費的地圖插槽,但一些工作仍在等待很長時間,比如幾個小時。 – scarcer
在線任務跟蹤器的作業跟蹤器界面顯示什麼?您是否在系統上使用了特定的調度程序,是否爲另一個隊列預留了一些時間段? –