2013-02-25 48 views
1

我使用偉大的Apache Tika庫解析文件。我想用我自己的解析器提取元標記,然後僅從<body> -tag獲取HTML內容並將其存儲在數據庫中。解析元標記並從Tika身上獲取HTML內容

現在我已經試過這幾個小時/天:-(,但無法找到一個解決方案:當我使用ToHTMLContentHandler<body> -tag我得到一個無效的命名空間異常而不

  • <html> -tag。
  • BodyContentHandler僅返回正文中不包含HTML標籤。
  • tika-app似乎用一個TransformerHandler獲得HTML(我從來沒有聽說過這樣的處理程序befor的e。)我可以使用它來從<body> -tag獲取HTML並自己解析元標記嗎?這是比使用ToHTMLContentHandler更好的方法嗎?

回答

2
+0

謝謝,我不知道這些有趣的文章,但他們不解決我的問題。當我僞造''開始元素時,我終於使用'TransformerHandler',它也在''標籤後面工作。 – Sonson123 2013-03-19 13:04:45

+0

很高興在這裏!如果你對你的問題有一些解決方案,你可以在這裏發佈它並將此線程標記爲「已回答」。所以,有類似問題的其他人可以從這裏獲得參考。 – 2013-03-26 05:15:09

+1

很難發佈我的解決方案的通用版本,它只是一個黑客。如果任何人有類似的問題,我會建議他看看'tika-app'的來源,並閱讀更多關於XSLT處理的內容。 – Sonson123 2013-03-26 16:36:37