0
A
回答
3
有一個很大的區別。它經常被稱爲「小文件問題」,並且與Hadoop希望將巨大輸入分成更小的任務但不將小輸入分成更大的任務有關。
看看這個博客帖子從Cloudera公司: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
如果你能避免產生大量的文件,這樣做。儘可能連接。對於Hadoop來說,大型可拆分文件更好。
我曾經在netflix數據集上運行過Pig。花了幾個小時才能處理幾個演出。然後我將輸入文件(我認爲它是每個電影的文件或每個用戶的文件)連接成一個文件 - 在幾分鐘內得到了我的結果。
相關問題
- 1. Hadoop輸入文件訂單
- 2. Hadoop的 - 輸入的共線文件
- 3. Hadoop較小的輸入文件
- 4. Hadoop作業輸入文件的位置
- 5. Hadoop找不到我的輸入文件
- 6. 的Hadoop MapReduce的多個輸入文件
- 7. Hadoop -copyFromLocal找不到輸入文件
- 8. Hadoop將輸出寫入普通文件
- 9. Hadoop多輸入文件錯誤
- 10. Hadoop:寫入後修改輸出文件
- 11. hadoop如何讀取輸入文件?
- 12. Hadoop的選擇輸入文件夾
- 13. Hadoop流媒體與zip輸入文件
- 14. Hadoop 1輸入文件= 1輸出文件,僅限地圖
- 15. 關於gz文件作爲hadoop mapreduce作業輸入的輸入
- 16. 如何讀取Hadoop Sequentil文件作爲Hadoop作業的輸入?
- 17. hadoop - 存放在hadoop中的輸入/輸出文件以及如何在hadoop中執行java文件?
- 18. Hadoop多輸入
- 19. hadoop作業輸出文件
- 20. Hadoop MapReduce - 每個輸入的一個輸出文件
- 21. 在流式傳輸hadoop程序中獲取輸入文件名
- 22. hadoop的輸入和輸出可以不是文件嗎?
- 23. Hadoop MapReduce多輸入
- 24. 將hive中「select」的輸出作爲Hadoop jar輸入文件的輸入
- 25. 使用hadoop替換輸入文件中的文本MR
- 26. hadoop - Hadoop jar輸入路徑問題
- 27. 導入CSV文件導入Hadoop的
- 28. Hadoop的輸入分配(MapV1)
- 29. Hadoop輸入拆分轉儲
- 30. 創建輸入分割(HADOOP)