0
我正在用POI解析.doc文件,當文字裝飾發揮作用時,它將我引向Apache Tika。現在我可以用簡單的文字裝飾如<i></i>
來提取文本,但是,我希望能夠處理更復雜的樣式。我的文檔包含不同的字體大小,下標,上標等。有沒有辦法用Tika獲取所有這些信息?如果沒有,任何人都可以指定我使用更合適的工具嗎?有沒有辦法從Apache Tika的doc文件中獲取所有樣式?
我正在用POI解析.doc文件,當文字裝飾發揮作用時,它將我引向Apache Tika。現在我可以用簡單的文字裝飾如<i></i>
來提取文本,但是,我希望能夠處理更復雜的樣式。我的文檔包含不同的字體大小,下標,上標等。有沒有辦法用Tika獲取所有這些信息?如果沒有,任何人都可以指定我使用更合適的工具嗎?有沒有辦法從Apache Tika的doc文件中獲取所有樣式?
如您發現的那樣,Tika目前處理的不多於<i>和<b>。根據文檔的複雜性,您可能會考慮直接使用POI(可能使用Tika的解析器作爲示例)。您也可以在tika dev列表([email protected])上詢問是否有興趣將其他格式化功能添加到Tika中,或者可以在我們的Jira site上打開一張票。
我猜,POI有點草率地把我送走。我按照你的建議使用Tika語法分析器研究它,並找到了解決方法。謝謝! – nora