2013-04-09 62 views
2

我需要將MSWord文件轉換爲XML或HTML,同時保留文件結構(主要是表格)。我偶然發現蒂卡,這是從MSWORD文件(及任何文件)中提取文本相當強大,如下:在Linux上將MSword轉換爲XML/HTML

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text 

,我可以從選項中選擇要保存的輸出轉換成HTML/XML,如下:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html 

但是輸出基本上就像用HTML編寫的純文本,所以不可能得到表格結構和其他文檔元素。

在Perl或Python中,有沒有Tika的實現可以在保持元素結構的同時將文檔轉換爲XML/HTML?或者是否有任何其他工具可以做到這一點?

+0

雖然它沒有蒂卡記住,[這個問題](http://stackoverflow.com/q/4200680/1979005)可能的援助。 – MathSquared 2013-04-09 23:29:42

+0

也有[Antiword](http://search.yahoo.com/search;_ylt=Ati28dqvob.8VzXPaQv4ViybvZx4?p=antiword&toggle=1&cop=mss&ei=UTF-8&fr=yfp-t-900)這可能是有用的,但我不知道它是否可以解析表格。 – 2013-04-09 23:44:44

+0

Apache Tika能夠從Word文件中提取表格,它甚至具有[單元測試 - testWordHTML()](http://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src /test/java/org/apache/tika/parser/microsoft/WordParserTest.java)!你的文件有什麼不尋常的現象嗎? – Gagravarr 2013-04-10 09:13:16

回答