閱讀http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html後,我們得出結論,我們的6節點的Hadoop集羣可以使用一些調整,並io.sort.factor似乎是一個不錯的選擇,因爲它控制的一個重要權衡。我們正在計劃進行調整和測試,但是提前計劃並且知道期望什麼以及要注意什麼似乎是合理的。我怎麼知道我的hadoop配置參數io.sort.factor是太小還是太大?
這是目前10我們怎麼知道它引起了我們太多的合併?當我們提出這個問題時,我們怎麼知道它會導致打開太多的文件?
需要注意的是,因爲它的更新CDH3b2,我們正在對CDH3u2工作,他們已經改變了我們不能直接按照博客日誌提取物...