解析元標記並從Tika身上獲取HTML內容

我使用偉大的Apache Tika庫解析文件。我想用我自己的解析器提取元標記，然後僅從<body> -tag獲取HTML內容並將其存儲在數據庫中。解析元標記並從Tika身上獲取HTML內容

現在我已經試過這幾個小時/天:-(，但無法找到一個解決方案：當我使用ToHTMLContentHandler後的<body> -tag我得到一個無效的命名空間異常而不

<html> -tag。
BodyContentHandler僅返回正文中不包含HTML標籤。
的tika-app似乎用一個TransformerHandler獲得HTML（我從來沒有聽說過這樣的處理程序befor的e。）我可以使用它來從<body> -tag獲取HTML並自己解析元標記嗎？這是比使用ToHTMLContentHandler更好的方法嗎？

2013-02-25 Sonson123