我正好從Word知道提卡,在文本提取非常有用:MSWORD到XML/HTML使用Apache提卡
捲曲www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
但是有沒有辦法使用它將Ms Word文件轉換爲XML/HTML?
我正好從Word知道提卡,在文本提取非常有用:MSWORD到XML/HTML使用Apache提卡
捲曲www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
但是有沒有辦法使用它將Ms Word文件轉換爲XML/HTML?
是的,它涉及到你的命令改變百日咳4個字符!
如果運行java -jar tika-app-1.3.jar --help
你會得到的東西,開頭:
usage: java -jar tika-app.jar [option...] [file|port...]
Options:
-? or --help Print this usage message
-v or --verbose Print debug level messages
-V or --version Print the Apache Tika version number
-g or --gui Start the Apache Tika GUI
-s or --server Start the Apache Tika server
-f or --fork Use Fork Mode for out-of-process extraction
-x or --xml Output XHTML content (default)
-h or --html Output HTML content
-t or --text Output plain text content
-T or --text-main Output plain text content (main content only)
-m or --metadata Output only metadata
.....
從這一點,你會發現,如果你改變你的--text
選項--html
或--xml
你會得到很好地進行格式化XML而不僅僅是純文本
儘管已經回答了這個事實,但由於使用java標記標記了問題,爲了完整起見,我將添加引用以輕鬆瞭解如何在java中執行此操作。
來自Tika單元測試的TikaTest.java超類是使用 getXML method.將單詞轉換爲html的最簡單參考可惜的是,他們在編寫單元測試時看到了這樣的API的用處,但選擇不將它公開爲一個方便的工具,迫使每個人處理處理程序等,這是常見用例的不幸樣板。
如果您[從Tika網站上下載此示例](http://tika.apache.org/1.11/examples.html#Parsing_to_XHTML),您會發現獲取XHTML與獲取純文本的行數相同! – Gagravarr 2015-12-05 23:02:47
謝謝,但有沒有辦法保存文檔結構(表格等,在HTML/XML中)? – hmghaly 2013-04-10 09:23:56
對於大多數文件格式,它已經被處理。 Word是其中的段落/表格/樣式名稱等 – Gagravarr 2013-04-10 09:51:38