2013-10-28 162 views
1

我正在使用TestDFSIO和TeraSort基準測試工具進行多個Hadoop測試。我基本上用不同數量的datanodes進行測試,以評估處理能力和數據節點可伸縮性的線性。Hadoop在重新啓動時刪除MapReduce歷史記錄

在上述過程中,我顯然必須重啓幾次所有的Hadoop環境。每次我重新啓動Hadoop時,所有MapReduce作業都將被刪除,作業計數器將再次從「job_2013 * _0001」開始。出於比較的原因,保持我之前啓動的所有MapReduce作業對我來說非常重要。所以,我的問題是:

¿如何避免Hadoop在重新啓動後刪除所有MapReduce作業歷史記錄? ¿Hadoop環境重新啓動後是否有某些屬性可以控制作業的刪除?

謝謝!

回答

0

在重新啓動hadoop後,MR作業歷史日誌不會被正確刪除,新作業將從* _0001開始計數,只有在hadoop重新啓動後啓動的新作業纔會顯示在資源管理器Web門戶上。事實上,有來自yarn default 2個日誌相關的設置:

# this is where you can find the MR job history logs 
yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 

# this is how long the history logs will be retained 
yarn.nodemanager.log.retain-seconds = 10800 

,默認$ {} yarn.log.dir在$ HADOOP_HONE的/ etc/Hadoop的/ yarn-env.sh定義。

YARN_LOG_DIR="$HADOOP_YARN_HOME/logs" 

順便說一句,類似的設置也可以在mapred-env.sh如果你是使用Hadoop的1.X

+0

謝謝Zhutoulala的回答中發現。我雖然有任何機構會給我一個答案。我會測試你的建議! – VikBar