鑑於Hadoop 0.21.0,該框架針對相對於每個單獨映射的打開文件描述符的數量做出了什麼假設並減少了操作?具體來說,哪些子操作會導致Hadoop在作業執行期間打開新的文件描述符或者溢出到磁盤?Hadoop中打開的文件描述符的預期消耗0.21.0
(這是故意忽略了使用MultipleOutputs
,因爲它很清楚的螺釘與系統提供的擔保)。
我在這裏的理由很簡單:我想確保我寫的Hadoop保證每個作業每個映射器或縮減器需要有限數量的文件描述符。 Hadoop高興地將它從程序員中抽象出來,這通常是件好事,如果不是在服務器管理期間其他鞋子掉落的話。
我原本是asked this question on Server Fault從集羣管理方面看的東西。由於我也負責編程,因此這個問題同樣適用於此。
相關地,觀察Hadoop爲每個工作人員消耗全部1024個可用文件描述符並不太有趣。我已經提出了臨時性的限制,但這似乎是一個長期的編程和集羣管理策略。 – MrGomez 2010-12-05 02:30:54