在Linux上將MSword轉換爲XML/HTML

我需要將MSWord文件轉換爲XML或HTML，同時保留文件結構（主要是表格）。我偶然發現蒂卡，這是從MSWORD文件（及任何文件）中提取文本相當強大，如下：在Linux上將MSword轉換爲XML/HTML

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

，我可以從選項中選擇要保存的輸出轉換成HTML/XML，如下：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但是輸出基本上就像用HTML編寫的純文本，所以不可能得到表格結構和其他文檔元素。

在Perl或Python中，有沒有Tika的實現可以在保持元素結構的同時將文檔轉換爲XML/HTML？或者是否有任何其他工具可以做到這一點？

來源

2013-04-09 hmghaly

雖然它沒有蒂卡記住，[這個問題]（http://stackoverflow.com/q/4200680/1979005）可能的援助。 – MathSquared 2013-04-09 23:29:42

也有[Antiword]（http://search.yahoo.com/search;_ylt=Ati28dqvob.8VzXPaQv4ViybvZx4?p=antiword&toggle=1&cop=mss&ei=UTF-8&fr=yfp-t-900）這可能是有用的，但我不知道它是否可以解析表格。 – 2013-04-09 23:44:44

Apache Tika能夠從Word文件中提取表格，它甚至具有[單元測試 - testWordHTML（）]（http://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src /test/java/org/apache/tika/parser/microsoft/WordParserTest.java）！你的文件有什麼不尋常的現象嗎？ – Gagravarr 2013-04-10 09:13:16

安裝OpenOffice SDK，它爲各種文檔（包括轉換）提供了強大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242

來源

2013-04-09 23:29:36

在Linux上將MSword轉換爲XML/HTML

回答

相關問題