2013-12-20 52 views
1

我是nutch新手。 nutch 1.7 我正在尋找方法來解析基於xpath的自定義xml文件並存儲數據。我確實看到了xml_parser插件,但是自tika接管以來暫停了。 如何配置嵌入在nutch 1.7中的tika來解析基於xpath的url內容。我已經搜索了所有的nutch文檔/維基,但那裏沒有太多的信息。 tika嘗試解析並提取由於自定義格式而失敗的內容,但我想根據xpath使用標記存儲xml。我應該在哪裏把xpath信息放在nutch conf中?或者我必須重寫tike解析器?nutch解析自定義xml與tika使用xpath

任何提示正確的方向非常讚賞。

謝謝。

回答