我有一個豬腳本,運行一個非常耗時的UDF。豬似乎將UDF設置爲作爲地圖作業運行而不是減少作業。結果,創建一個次優的少量映射器來運行這項工作。我知道我可以使用setDefaultParallel
以及PigLatin中的PARALELL x
命令設置用於豬的縮減器的默認數量,以設置給定生產線的縮減器的數量。但是,我如何設置mappers的數量呢?通過定義我自己的InputSplit大小,我已經看到有關增加映射器數量的文章,但我想明確地將映射器的數量設置爲主機數量*內核數量,文件大小與它無關。豬:強制UDF發生在減速器或設定的映射器數量
如果我無法控制mappers的數量,是否有強迫我的UDF作爲reducer出現,因爲我可以控制這些?
啊,那太臭了......哦,謝謝。 – Manny