我想了解如何可以縮小作業開始執行任務以及如何控制MR作業的數量。控制地圖的數量並減少產生的作業?
假設我在HDFS中有1TB文件,並且我的塊大小爲128MB。 如果我將輸入分割大小指定爲256MB,則對於此1TB文件上的MR任務,將開始多少個Map和Reduce作業。根據我的理解,這取決於分割大小。即Map作業的數量=文件/分割大小的總大小,並且在這種情況下,其結果爲1024 * 1024 MB/256 MB = 4096
。所以hadoop啓動的map任務的數量是4096.
1)對不對?
2)如果我認爲這是一個不合適的數字,我可以通知hadoop開始減少數量的工作或甚至更多的工作。 如果是的話如何?
如何減少作業的數量產生,我認爲這完全由用戶控制。
3)但是,我應該如何以及在哪裏提及所需的減速機作業數量。
[設置地圖的任務數量,降低任務]的可能的複製(https://stackoverflow.com/questions/6885441/setting-該用戶號碼的地圖任務,和減少任務) –