MSWORD到XML/HTML使用Apache提卡

我正好從Word知道提卡，在文本提取非常有用：MSWORD到XML/HTML使用Apache提卡

捲曲www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

但是有沒有辦法使用它將Ms Word文件轉換爲XML/HTML？

2013-04-09 hmghaly

是的，它涉及到你的命令改變百日咳4個字符！

如果運行java -jar tika-app-1.3.jar --help你會得到的東西，開頭：

usage: java -jar tika-app.jar [option...] [file|port...] 

Options: 
    -? or --help   Print this usage message 
    -v or --verbose  Print debug level messages 
    -V or --version  Print the Apache Tika version number 

    -g or --gui   Start the Apache Tika GUI 
    -s or --server  Start the Apache Tika server 
    -f or --fork   Use Fork Mode for out-of-process extraction 

    -x or --xml   Output XHTML content (default) 
    -h or --html   Output HTML content 
    -t or --text   Output plain text content 
    -T or --text-main  Output plain text content (main content only) 
    -m or --metadata  Output only metadata 
.....

從這一點，你會發現，如果你改變你的--text選項--html或--xml你會得到很好地進行格式化XML而不僅僅是純文本

來源

2013-04-10 09:15:52 Gagravarr

謝謝，但有沒有辦法保存文檔結構（表格等，在HTML/XML中）？ – hmghaly 2013-04-10 09:23:56

對於大多數文件格式，它已經被處理。 Word是其中的段落/表格/樣式名稱等 – Gagravarr 2013-04-10 09:51:38

儘管已經回答了這個事實，但由於使用java標記標記了問題，爲了完整起見，我將添加引用以輕鬆瞭解如何在java中執行此操作。

來自Tika單元測試的TikaTest.java超類是使用 getXML method.將單詞轉換爲html的最簡單參考可惜的是，他們在編寫單元測試時看到了這樣的API的用處，但選擇不將它公開爲一個方便的工具，迫使每個人處理處理程序等，這是常見用例的不幸樣板。

來源

2015-12-05 17:40:19

如果您[從Tika網站上下載此示例]（http://tika.apache.org/1.11/examples.html#Parsing_to_XHTML），您會發現獲取XHTML與獲取純文本的行數相同！ – Gagravarr 2015-12-05 23:02:47

MSWORD到XML/HTML使用Apache提卡

回答

相關問題