我有一個關於使用hadoop處理小文件的問題。我的文件只有大約1000條左右的記錄,但我希望記錄大致均勻地分佈在節點之間。有沒有辦法做到這一點?我是hadoop的新手,到目前爲止,似乎所有的執行都在一個節點上發生,而不是同時發生。讓我知道我的問題是否合理,或者是否需要澄清任何事情。就像我說的,我對Hadoop非常陌生,但希望得到一些澄清。謝謝。用hadoop處理非常小的文件
0
A
回答
1
使用NLineInputFormat並指定每個映射器要處理的記錄數。這樣一個塊中的記錄將被多個映射器處理。
0
另一種選擇是將您的一個輸入文件分成多個輸入文件(在一個輸入路徑目錄中)。 然後,這些輸入文件中的每一個都可以分佈在hdfs中,並且在擁有這些輸入拆分的工作機器上執行映射操作。
相關問題
- 1. Hadoop處理非常大的二進制文件
- 2. 處理小文件映射減少hadoop
- 3. Hadoop:處理異常RunningJob.isComplete()
- 4. 使用Hadoop處理大量小文件集
- 5. 使用Hadoop處理xml文件
- 6. 在Hadoop 2.0中處理3百萬個+小文本文件
- 7. 處理hadoop python中的多個文件
- 8. 在Hadoop中處理條件文件
- 9. 使用promised-csv來處理非常大的csv文件
- 10. 解析,處理和使用非常大的XML文件
- 11. 使用openpyxl處理非常大的文件python
- 12. 文件的異常處理
- 13. 一行一行處理非常大(> 20GB)的文本文件
- 14. EMR Hadoop處理整個S3文件
- 15. Chart.js:如何處理雷達圖中的非常大和非常小的值?
- 16. 用於處理非常大的字典文件的Hadoop/Hive分佈式緩存的替代解決方案?
- 17. Haskell。非IO異常處理
- 18. PyInstaller非常大的文件大小
- 19. laravel app.js非常大的文件大小
- 20. JSON處理Hadoop的
- 21. python - 處理非常大的文件(> 90GB)
- 22. For語句 - 非常奇怪的輸出(批處理文件)
- 23. 在python中處理非常大的netCDF文件
- 24. Java文件異常處理
- 25. 文件處理異常
- 26. 如何在Hadoop/PIG中處理非ASCII /亞洲/中文字符
- 27. 在Python中處理非常小的數字
- 28. 使SAS處理非常小的數字而不捨入
- 29. 如何在C++中處理非常小的數字?
- 30. 在Ruby中處理非常小的數字
感謝Praveen,那麼將使用NLineInputFormat覆蓋爲mapred.max.split.size和dfs.block.size設置的值嗎? – user399540 2013-02-12 13:55:50
我不認爲它考慮到mapred.max.split.size和dfs.block.size。請檢查[NLineInputFormat.java](http://goo.gl/mAFbK)代碼以獲取更多詳細信息。 – 2013-02-12 14:03:15