我將合併一些使用map/reduce的同一目錄下的小文件。我看到有人說使用流將會非常簡單,但現在我只能使用JAVA map/reduce。 現在我的解決方案是讀取一個記錄一個記錄的文件,並將它們寫入相同的輸出文件。但我認爲效率低下。我可以使用整個文件的內容作爲映射器的值,以便提高I/O效率? 感謝您的回覆!如何使用mapreduce合併一些文件?
1
A
回答
3
這樣的「低效率」的方式就是貓的文件,它寫回:
hadoop fs -cat /path/to/files/*.txt | hadoop fs -put - /output/path/blobbed.txt
您可能會發現,這將只是罰款甚至更大的數據集。
+1
它並不低效,但比通過mapreduce作業並行執行要慢。取決於有多少小文件,它可能比MR作業更快。 –
+0
您是否認爲'getmerge',然後將結果往後推得更快? –
+0
這取決於大小和有多少文件。但是每個文件最多可達64m getmerge應該更快。 –
相關問題
- 1. 如何合併只有一些文件?
- 2. 我們可以使用Hadoop MapReduce合併兩個文件代碼
- 3. HDFS和MapReduce如何使用小文件
- 4. 合併分支。 - 如何在合併時忽略某些文件?
- 5. 如何使用ROBOCOPY合併文件
- 6. 如何使用python txt文件合併?
- 7. 爲什麼git不問如何合併一些文件?
- 8. 結合一些CSV文件合併成一個 - 列數不同
- 9. 使用mapreduce處理文件
- 10. TFS合併不停地合併一些文件而沒有任何更改
- 11. 如何使用delphi導入(合併)一個reg文件?
- 12. 如何將2個XLSX文件合併爲一個使用NodeJS
- 13. 基於一些條件合併兩個文本文件
- 14. Shell腳本使用curl + cookie批量下載文件併合並這些文件
- 15. 如何合併論文3個JSON文件合併成一個單一的一個使用Ruby?
- 16. 如何合併這些代碼,並將某些文件而不是所有文件移動到文件夾?
- 17. 使用ILMerge合併多個dll文件到一個dll,一些dll文件不能使用
- 18. 如何合併排序文件而不使用臨時文件?
- 19. 如何合併VDPROJ文件?
- 20. 如何合併XML文件?
- 21. 如何合併xmi文件?
- 22. 如何shell腳本通過行合併三個文件,並計算一些數值,滿足某些條件
- 23. 如何將兩個wav文件合併/合併爲一個wav文件?
- 24. 如何合併多個日誌文件合併成一個.LDF文件在SQL2000
- 25. 如何使用xslt將幾個xml文件合併到一個xml文件中?
- 26. 如何使用Python/console將多個DOC文件合併成一個文件?
- 27. 如何使用PHP將HTML文件合併到一個文件中?
- 28. 如何使用Python將多個.csv文件合併到一個.xls文件中?
- 29. 從MapReduce壓縮輸出文件而不合並它們
- 30. 如何合併csv文件並使用python添加標題行?
合併順序對您有影響嗎?這些文件是從以前的MR作業輸出的,並且您想要創建一個單獨的排序輸出,還是隻想要一個文件,而且具有未定義的排序? –
而且這些文件是否已經在HDFS中或某些本地磁盤上? –
我不需要該命令,並且所有文件都在HDFS中 – wanghao