2017-02-23 97 views
1

我遇到了一些麻煩,我的hadoop羣集。 我試圖做一些基準檢查它的表現,看看mapreduce工作正常,但我有一些奇怪的beahviours。 事實是,MapReduce的開始和治療它的映射階段,但我從中得到了一些錯誤: 我用teragen爲先創建數據:hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data 

接下來的工作開始,我得到了一些故障,而不停止進程:

17/02/23 12時29分27秒INFO client.RMProxy:連接到ResourceManager的在/172.16.138.145:8032

17/02/23 12時29分28秒INFO terasort.TeraSort :使用2生成500個

17/02/23 12時29分28秒INFO mapreduce.JobSubmitter:2

17/02/23 12時29分28秒INFO mapreduce.JobSubmitter::提交令牌工作:分割的數目job_1487846108320_0007

17/02/23 12時29分28秒INFO impl.YarnClientImpl:提交的申請application_1487846108320_0007

17/02/23 12時29分28秒INFO mapreduce.Job:http://172.16.138.145:8088/proxy/application_1487846108320_0007/

:跟蹤作業的網址

17/02/23 12:29:28信息mapreduce.Job:正在運行的作業:job_1487846108320_0007

17/02/23 12時29分34秒INFO mapreduce.Job:工作job_1487846108320_0007在超級模式下運行:假

17/02/23 12時29分34秒INFO mapreduce.Job:地圖0%減少0%

17/02/23 12時29分47秒INFO mapreduce.Job:任務標識: attempt_1487846108320_0007_m_000001_0,狀態:失敗

17/02/23 12時29分48秒INFO mapreduce.Job:任務Id:attempt_1487846108320_0007_m_000000_0,狀態:FAILED

17/02/23 12: 30:02 INFO mapreduce.Job:地圖50%減少0%

17/02/23 12時30分02秒INFO mapreduce.Job:任務標識:attempt_1487846108320_0007_m_000001_1,狀態:FAILED

17/02/23 12時30分03秒INFO mapreduce.Job:地圖0%減少0%

17/02/23 12時30分03秒INFO mapreduce.Job:任務標識:attempt_1487846108320_0007_m_000000_1,狀態:FAILED

17/02/23 12:30:15信息mapreduce.Job:任務Id:attempt_1487846108320_0007_m_000001_2,狀態:FAILED

17/02/23 12時30分十六秒INFO mapreduce.Job:任務標識:attempt_1487846108320_0007_m_000000_2,狀態:FAILED

17/02/23十二時三十分30秒INFO mapreduce.Job:地圖100%減少0%

17/02/23 12:30:31信息mapreduce。作業:作業job_1487846108320_0007因狀態FAILED失敗,原因如下:任務失敗任務_1487846108320_0007_m_000001

作業失敗,因爲任務失敗。 failedMaps:1個failedReduces:0

我檢查日誌中所關注的數據節點,發現下面的行重複用於每個失敗:

2017年2月23日11:36:12901 INFO [AsyncDispatcher事件處理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt轉變從RUNNING到FAIL_CONTAINER_CLEANUP

2017年2月23日11:36:12901 INFO [AsyncDispatcher事件處理程序]的有機.apache.hadoop.mapreduce.v2.app.job。 impl.TaskAttemptImpl:從attempt_1487846108320_0001_m_000001_1診斷報告:

2017年2月23日11:36:12902 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:處理事件的EventType: CONTAINER_REMOTE_CLEANUP集裝箱container_1487846108320_0001_01_000004 taskAttempt attempt_1487846108320_0001_m_000001_1

2017年2月23日11:36:12903 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:殺滅attempt_1487846108320_0001_m_000001_1

2017- 02-23 11:36:12,903 INFO [ContainerLauncher#5] org.apache.hadoop.yarn.client.api.impl.ContainerManag ementProtocolProxy:打開代理:Datanode3:34121

2017年2月23日11:36:12923 INFO [AsyncDispatcher事件處理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt轉換從FAIL_CONTAINER_CLEANUP到FAIL_TASK_CLEANUP

2017年2月23日11:36:12924 INFO [CommitterEvent處理器#2] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler:處理事件的EventType:TASK_ABORT

2017-02-23 11:36:12,932 WARN [CommitterEvent Processor#2] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:Co udf不刪除hdfs://172.16.138.145:9000/user/hdfs/random-dataSmallV7.7/_temporary/1/_temporary/attempt_1487846108320_0001_m_000001_1

2017-02-23 11:36:12,932信息[AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt轉變從FAIL_TASK_CLEANUP失敗

在這種情況下,作業失敗,但有時我得到的錯誤,但作業將成功的。 (很少) 你知道這可能是FAIL_CONTAINER_CLEANUP的原因嗎?或者這個問題的潛在原因? 這裏只使用映射器而沒有請求reducer,但是當reducer涉及其他情況時,錯誤也會發生。

謝謝您的提議。

回答

0

我終於解決了。 我在一些/etc/hosts文件中引用了我的節點: 127.0.1。1 Datanode1

我更換此行,我的機器的FQDN: 172.16.138.147 Datanode1

這使得Hadoop的找到我的服務器的參考和修正這個錯誤。

我希望這會幫助別人。