有沒有辦法從Apache Tika的doc文件中獲取所有樣式？

我正在用POI解析.doc文件，當文字裝飾發揮作用時，它將我引向Apache Tika。現在我可以用簡單的文字裝飾如<i></i>來提取文本，但是，我希望能夠處理更復雜的樣式。我的文檔包含不同的字體大小，下標，上標等。有沒有辦法用Tika獲取所有這些信息？如果沒有，任何人都可以指定我使用更合適的工具嗎？有沒有辦法從Apache Tika的doc文件中獲取所有樣式？

來源

2016-05-03 nora

如您發現的那樣，Tika目前處理的不多於<i>和<b>。根據文檔的複雜性，您可能會考慮直接使用POI（可能使用Tika的解析器作爲示例）。您也可以在tika dev列表（[email protected]）上詢問是否有興趣將其他格式化功能添加到Tika中，或者可以在我們的Jira site上打開一張票。

來源

2016-05-03 15:15:09

我猜，POI有點草率地把我送走。我按照你的建議使用Tika語法分析器研究它，並找到了解決方法。謝謝！ – nora

有沒有辦法從Apache Tika的doc文件中獲取所有樣式？

回答

相關問題