我做了大小的XML文件近500線以下解決方案:處理非結構化大XML文件
- 轉換的大XML文件轉換成較小的XML與所需元素的文件使用XSLT
tansformations - 比使用SAXON XML java代碼中的解析器我解析了這些新生成的文件
- 比使用JAXB的概念我將unmarshlled XML轉換爲java對象而不是SQL SERVER。
但現在我有了新的XML文件,這些文件非常大,有近15000行或更多行,並且非常結構化。所以使用上面的解決方案來獲取數據庫中的數據將是非常低效的。我試圖找出什麼可能是與這些大文件合作的最佳解決方案。我做了一些研究,發現了一個名爲「Altova XML spy」的工具,可以使我的非結構化XML文件變得更加複雜。我嘗試使用這個工具播放一個大文件,但它效果不佳。我還想過把這些大文件轉儲到hadoop集羣中,並使用Hive/Pig來獲取數據。
所以我的問題是任何人都可以提出任何新的解決方案或程序。任何可以將大型XML文件製作成不太複雜的文件的工具。
希望得到這麼多的信息就足夠了。讓我知道是否有其他需要。
預先感謝您。
實際上是15000或更多。對不起,這是一個錯字 – user1188611 2013-02-28 16:54:21
@ user1188611如果是這樣,請使用'編輯'更新您的問題。 – harpun 2013-02-28 18:14:55
完成編輯,但可以有人提供一些想法或建議。 – user1188611 2013-02-28 18:25:15