這似乎是一個非常常見的用例,但在Hadoop中很難做到這一點(可能使用WholeFileRecordReader類)。 Dumbo或Pig都可能嗎? 有誰知道使用Dumbo或Pig處理整個文件爲地圖任務的方法嗎?使用Python代碼處理Hadoop中的整個文件(最好在Dumbo中)
2
A
回答
0
WholeFileRecordReader是否意味着不分割輸入文件?如果是這樣,將mapred.min.split.size定義爲一個非常大的值,mapreduce和Pig都會採用它。
+0
謝謝。這聽起來很簡單,但我需要在哪個節點上設置它(我正在使用遠程Hadoop集羣)? – jan
0
我假設你想有一個文件在豬的記錄上。如果沒有,請在你的問題中更具體。
我不知道一次加載整個文件的Pig存儲加載器(在標準分發版或Piggybank中)。我建議你寫自己的Pig custom loader,這相對容易。
相關問題
- 1. 處理hadoop python中的多個文件
- 2. Hadoop:在Python代碼中處理圖像文件
- 3. 使用一個代碼在Python中處理多個文件
- 4. 在Python中使用Hadoop來處理一個大的csv文件
- 5. hadoop的Dumbo mapreduce
- 6. 在Python中處理多個代碼文件和文件夾
- 7. EMR Hadoop處理整個S3文件
- 8. 在Hadoop中處理條件文件
- 9. Python,在python代碼中處理Py_buildValue
- 10. 如何在整個代碼中處理Android ActionBar代碼?
- 11. 使用Hadoop處理xml文件
- 12. Python - 不處理目錄中的所有文件的代碼
- 13. 在php中使用批處理代碼
- 14. 在Hadoop 2.0中處理3百萬個+小文本文件
- 15. python中的文件處理
- 16. 最好的方式來寫理解和Python友好代碼
- 17. 使用Hadoop將文本文件中的段落處理爲單個記錄
- 18. 使用多處理在Python中讀取多個HDF5文件
- 19. 什麼是最好的Python Zip模塊來處理大文件?
- 20. 用hadoop處理非常小的文件
- 21. 在python中使用線程處理多個最終用戶
- 22. 在Hadoop框架中拆分大文件的好處
- 23. 更好地理解這個python代碼
- 24. 識別文件夾中用於處理文件的擴展名使用hadoop mapreduce
- 25. 使用批處理文件在當前文件夾中運行visual studio代碼
- 26. 使用ParallelForeach處理文件。這是最好的方法
- 27. 在整個代碼中使用int
- 28. 在Python中使用rpy2軟件包:Rruntime錯誤未被用戶代碼處理
- 29. 在python中處理多個進程中的單個文件
- 30. 在Hadoop中處理日期
謝謝你的回答。閱讀Hadoop中的文件拆分,我發現標準拆分大小爲64 MB。我的文件很小(幾百KB),並裝入HAR中。這是否意味着他們不會分裂,並且實際上是每個地圖任務處理一個?甚至幾個地圖任務(因爲HAR)? – jan
不,har不會減少地圖的數量。您需要使用MultiFileInputSplit。如果您使用Pig,Pig會自動合併從0.8開始的小文件(http://pig.apache.org/docs/r0.9.0/perf.html#combine-files)。 –