2010-03-03 78 views
5

是否有一個輸入類根據Hadoop中的樹結構處理[多個]大型XML文件?我有一組具有相同模式的XML文件,但我需要將它們拆分爲數據段,而不是將這些段分開。將大型XML文件拆分爲Hadoop的可管理部分

例如XML文件將是:

<root> 
    <parent> data </parent> 
    <parent> more data</parent> 
    <parent> even more data</parent> 
</root> 

我將定義每個部分爲: /根/父母。

我在問的是:Hadoop中是否有一個記錄輸入閱讀器可以執行此操作?

+0

表現有多重要?記錄輸入讀卡器可以,但速度很慢......這可以接受嗎? – 2010-03-03 19:39:17

+0

呃..它的一個學校作業如此表現並不是什麼大問題......但是如果你打算把這些片段轉儲到多個文件中,那麼它會更好一些 – monksy 2010-03-03 19:52:38

+0

,然後vtd-xml(http://vtd-xml.sf .net)是最簡單/最快捷的方法,VTDNav中有一個名爲getElementFragment()的函數,它將段作爲字節段抓取並將其轉儲到文件中,另一件事是:內置vtd-xml支持的xpath doesn 't傷害 – 2010-03-03 21:08:33

回答