2
A
回答
7
這取決於你:
- 輸入格式 - 某些輸入格式(
NLineInputFormat
,WholeFileInputFormat
),比上塊大小其它邊界進行工作。一般而言,從FileInputFormat
擴展的任何內容都將使用塊邊界作爲指南 - 文件塊大小 - 單個文件不需要具有與默認塊大小相同的塊大小。這是在文件上傳到HDFS時設置的 - 如果未明確設置,則應用默認塊大小(在上傳時)。文件後對默認/系統塊大小的任何更改都不會對已上傳的文件產生影響。
- 兩個
FileInputFormat
配置屬性mapred.min.split.size
和mapred.max.split.size
通常默認爲1
和Long.MAX_VALUE
,但如果這是在您的系統配置覆蓋,或在你的工作,那麼這將改變每個映射處理的數據amunt和數量映射器任務產生。 - 非分裂式壓縮 - 如gzip,不能由不止一個映射器處理,因此(,除非你使用像
CombineFileInputFormat
CompositeInputFormat
),你會得到每gzip文件1名映射
所以,如果你有64米塊大小的文件,但無論是要處理比這個在每張地圖的任務多跌少,那麼你應該只能夠設置以下作業配置屬性:
mapred.min.split.size
- 大於默認情況下,如果你想使用更少的映射器,代價是(可能)損失數據loc先進而精湛(由單個map任務處理的所有數據現在可能在2個或多個數據節點)mapred.max.split.size
- 比默認小,如果你想使用更映射器(說你有一個CPU密集型映射器)來處理每個文件
如果您使用MR2 /紗線那麼上面的屬性由棄用,取而代之:
mapreduce.input.fileinputformat.split.minsize
mapreduce.input.fileinputformat.split.maxsize
相關問題
- 1. wizardfomr的默認大小是多少?
- 2. Hadoop map減少移除小於或大於映射器的值
- 3. 每個Hadoop映射任務使用多少個核心?
- 4. Hadoop的許多映射器
- 5. hadoop中每個映射器的單個或多個文件?
- 6. 處理小文件映射減少hadoop
- 7. 將會運行多少個映射器?
- 8. Google Guava Cache的默認最大大小是多少?
- 9. Java 8中默認的最大Codecache大小是多少?
- 10. 各種Sun JVM的默認最大堆大小是多少?
- 11. 默認地圖減少工作?多少映射器和減壓器
- 12. Hadoop 2.x中的默認塊大小
- 13. AES生成的密鑰的默認大小是多少?
- 14. h:selectOneMenu呈現的select元素的默認大小是多少?
- 15. Hadoop幾個映射器
- 16. RET默認的操作數大小是多少?
- 17. UITableViewCell中UIImage的默認大小是多少?
- 18. IBM J9VM的默認堆大小是多少?
- 19. Windows中CreateFile的默認緩衝區大小是多少?
- 20. logrotate使用的默認大小是多少?
- 21. Hadoop的一個映射和多個減少
- 22. 如何讓hadoop映射器讀取整個句子
- 23. Hadoop將數據從映射器減少到組合器
- 24. ifstream :: ifstream可以讀取的最大文件大小是多少
- 25. Hadoop:映射器沒有從多個輸入路徑讀取文件
- 26. HADOOP - 獲取映射器內的nodename
- 27. JacksonJaxbJsonProvider默認的objectmapper映射
- 28. 包含從塊中讀取映射器的Hadoop java文件
- 29. Hadoop按照每個映射工作流多個文件
- 30. 將數據寫入Cassandra Hadoop映射器(不減少)