5
是否有一個輸入類根據Hadoop中的樹結構處理[多個]大型XML文件?我有一組具有相同模式的XML文件,但我需要將它們拆分爲數據段,而不是將這些段分開。將大型XML文件拆分爲Hadoop的可管理部分
例如XML文件將是:
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
我將定義每個部分爲: /根/父母。
我在問的是:Hadoop中是否有一個記錄輸入閱讀器可以執行此操作?
表現有多重要?記錄輸入讀卡器可以,但速度很慢......這可以接受嗎? – 2010-03-03 19:39:17
呃..它的一個學校作業如此表現並不是什麼大問題......但是如果你打算把這些片段轉儲到多個文件中,那麼它會更好一些 – monksy 2010-03-03 19:52:38
,然後vtd-xml(http://vtd-xml.sf .net)是最簡單/最快捷的方法,VTDNav中有一個名爲getElementFragment()的函數,它將段作爲字節段抓取並將其轉儲到文件中,另一件事是:內置vtd-xml支持的xpath doesn 't傷害 – 2010-03-03 21:08:33