2011-05-16 39 views
1

我在hdfs中有近200多個xml文件。我使用Mahout的XmlInputFormat來流式傳輸元素。映射器能夠獲取xml內容並進行處理。但問題是隻有第一個xml文件正在被處理。但是,當我們處理大量小文本文件時,在處理第一個文件後,下一個文件將由Hadoop傳遞給映射器。讓我知道如果這不是xml文件的默認行爲,並且應該做什麼來遍歷整個xml文件集。謝謝。hadoop中的XML處理

+0

你可以展示你如何開始mapredce?你能提供你在做什麼的例子嗎?它可能是任何東西從不正確地開始mapreduce寫入嚴重的mapper和更多...沒有足夠的信息。 – Nija 2011-05-16 14:07:54

回答

1

使用正常的XmlStreamRecordReader類,然後遍歷標準輸入(使用Python,Hadoop Streaming API),我獲得了良好的運氣。

這些文件有多大,並且您是在單個系統還是多節點羣集上運行它?什麼是HDFS塊大小設置?