0
A
回答
1
如何確定mappers的數量?
與減速器的數量相比,確定映射器的數量相對容易,但難度較大。 可以如下確定映射器的數量: 首先確定輸入文件是否可拆分。 GZipped文件和其他一些壓縮文件本質上不能被Hadoop分割。普通的文本文件,JSON文檔等是可拆分的。
如果文件是可分開:
- 計算輸入文件的總大小。
- 映射器的數量=上面計算的總大小/ Hadoop配置中定義的輸入分割大小。 例如,如果輸入的總大小爲1GB,輸入分割大小設置爲128 MB,則: 映射器數量= 1 x 1024/128 = 8映射器。
如果文件不分割型:
- 在此情況下映射器的數目等於輸入的文件數。
另外,fileformat也起着作用。
+0
Hi Nidhin,因爲它是Hive(HDFS)表。我認爲,分裂已經完成了。與hadoop一起工作時,最好說'分割數=映射器數量'。但它在Hive中有效? – user1999758
相關問題
- 1. 減少蜂巢啓動時間爲許多蜂巢-e調用
- 2. 豬和蜂巢中產生的映射器數
- 3. 處理在正則表達式的多個匹配在蜂巢
- 4. 使用「屬性屬性」映射蜂巢XML SERDE
- 5. 部隊蜂巢表的每一行使用映射
- 6. 改變一個在蜂巢表的映射表列通過HQL
- 7. SQOOP Mysql的進口蜂巢錯誤用戶不屬於蜂巢
- 8. 處理小文件映射減少hadoop
- 9. 與重複處理基於某些條件SQL蜂巢
- 10. UDF在蜂巢
- 11. 在蜂巢
- 12. 在蜂巢
- 13. 在蜂巢
- 14. regex_extract在蜂巢
- 15. 在蜂巢
- 16. 在蜂巢
- 17. 在蜂巢
- 18. 在蜂巢
- 19. 在蜂巢
- 20. 在蜂巢
- 21. 在蜂巢
- 22. 在蜂巢
- 23. 在蜂巢
- 24. 使用映射的多處理
- 25. 將蜂巢分區映射到某個位置
- 26. 蜂巢 - 選擇基於
- 27. 蜂巢 - 獲取基於一列中有兩個蜂巢表
- 28. 蜂巢多個子查詢
- 29. Json_tuple說,在蜂巢
- 30. 如何在蜂巢
這是一個謎題? – YoungHobbit
這是我在訪談中提出的問題之一......它取決於表的配置方式,文件格式以及HDFS的配置方式。 –
Roberto感謝您的回覆,您能對此進行更簡要的介紹嗎?非常感謝 – user1999758