Q

hadoop中的XML處理

2011-05-16 39 views 1 likes

1

我在hdfs中有近200多個xml文件。我使用Mahout的XmlInputFormat來流式傳輸元素。映射器能夠獲取xml內容並進行處理。但問題是隻有第一個xml文件正在被處理。但是，當我們處理大量小文本文件時，在處理第一個文件後，下一個文件將由Hadoop傳遞給映射器。讓我知道如果這不是xml文件的默認行爲，並且應該做什麼來遍歷整個xml文件集。謝謝。hadoop中的XML處理

2011-05-16 Venkiram

+0

你可以展示你如何開始mapredce？你能提供你在做什麼的例子嗎？它可能是任何東西從不正確地開始mapreduce寫入嚴重的mapper和更多...沒有足夠的信息。 – Nija 2011-05-16 14:07:54

A

回答

1

使用正常的XmlStreamRecordReader類，然後遍歷標準輸入（使用Python，Hadoop Streaming API），我獲得了良好的運氣。

這些文件有多大，並且您是在單個系統還是多節點羣集上運行它？什麼是HDFS塊大小設置？

2011-08-17 20:38:14

相關問題

1. Hadoop中的XML處理失敗
2. 處理XML用Hadoop流失敗
3. 使用Hadoop處理xml文件
4. 使用hadoop進行XML處理
5. JSON處理Hadoop的
6. 在Hadoop中處理日期
7. 在Hadoop中處理複雜的XML以提取數據
8. 段落處理Hadoop
9. 如何處理Hadoop中的java.net.ConnectException？
10. 處理Hadoop中的更新記錄

11. 處理hadoop python中的多個文件
12. 的Hadoop（1.1.2）XML處理和重寫文件在這裏
13. Hadoop Mapreduce：TextInputFormat和處理行？
14. 處理增量數據 - Hadoop
15. Hadoop：處理異常RunningJob.isComplete（）
16. Java中的XML處理
17. C++中的XML處理
18. C＃中的NullReferenceException處理XML
19. minidom中的Python XML處理
20. 處理基於XML的XML
21. 在Hadoop中處理條件文件
22. 在Hadoop中分佈式處理JSON
23. 處理XML的PHP
24. iphone xml處理
25. XML處理
26. XML/JSON處理
27. XML Dom處理
28. 自動化Hadoop的批處理命令
29. 的Hadoop流式處理問題
30. hadoop是否真的處理datanode失敗？