我是hadoop的新手。我有包含文件的多個文件夾來處理hadoop中的數據。我懷疑要在map-reducer算法中實現mapper。我可以指定多個映射器來處理多個文件,並將所有輸入文件作爲一個輸出使用一個reducer嗎?如果可能的話,請爲實施上述步驟提供指導。在hadoop中實現多個mapper和單個reducer
0
A
回答
1
如果您有多個文件,使用MultipleInputs
addInputPath()方法可用於:
- 添加多個路徑和一個共同的映射器實現
- 添加自定義映射器和輸入多路格式實現。
對於具有單個縮減器,讓每個映射的輸出鍵相同...說1或「abc」。這樣,框架將只創建一個reducer。
0
如果要以相同的方式映射文件(例如,它們都具有相同的格式和處理要求),那麼您可以配置一個映射器來處理所有這些文件。
您可以通過配置的TextInputFormat類做到這一點:
string folder1 = "file:///home/chrisgerken/blah/blah/folder1";
string folder2 = "file:///home/chrisgerken/blah/blah/folder2";
string folder3 = "file:///home/chrisgerken/blah/blah/folder3";
TextInputFormat.setInputPaths(job, new Path(folder1), new Path(folder2), new Path(folder3));
這將導致所有的文件夾1,2和3的文件映射器正在處理中。
當然,如果您需要使用不同的輸入類型,則必須適當地配置該類型。
相關問題
- 1. Hadoop中的Mapper和Reducer
- 2. 如何在Hadoop 1.0.4中鏈接mapper/reducer?
- 3. Hadoop Mapper中Mapper/Reducer的設置和清理方法MapReduce
- 4. 如何在Scala 2.9.0中實現Hadoop Mapper?
- 5. 是一個tasktracker對應hadoop中的mapper還是reducer?
- 6. 如何在Hadoop的Mapper和Reducer中提供子類?
- 7. Mapper和Reducer是Hadoop版本2中的接口?
- 8. 默認/找到hadoop 1.x中的mapper和reducer的數量
- 9. xyz場景需要多少mapper和reducer?
- 10. 單個hadoop Mapper對象用於map()的多個調用嗎?
- 11. 如何在Mapper和Reducer類中共享一個變量?
- 12. 在Mapper或Reducer中處理異常的Hadoop最佳實踐是什麼?
- 13. 是否可以將屬性從mapper傳遞給hadoop中的reducer?
- 14. hadoop mapper閱讀多行
- 15. 在Python中使用CountVectorizer Mapper Reducer
- 16. 在Mapper類中執行Reducer操作
- 17. Mapper和Reducer類是否需要部署在Hadoop集羣的所有節點上
- 18. 如何從mapper或reducer外部增加hadoop計數器?
- 19. 使用Java Mapper/Reducer進行Hadoop流式處理
- 20. Mapper和Reducer應該是內部類嗎?
- 21. 知道mapper和reducer的用法
- 22. Hadoop Streaming和多個Reducer步驟在每個步驟之間沒有映射器
- 23. Hadoop - 在Reducer中排序
- 24. 使用多個reducer時,Hadoop中的鍵/值對如何分佈?
- 25. Hadoop:使用什麼來代替已棄用的接口Mapper和Reducer?
- 26. Hadoop - 使用Java將reducer輸出合併到單個文件中
- 27. 多個reducer如何在Hadoop中只輸出一個部分文件?
- 28. 在單個reducer中寫入多個HCatalog架構?
- 29. Hadoop Mapper類中的參數
- 30. Hadoop的Mapper對象是否跨多個線程共享?