2013-04-09 65 views
0

我正好從Word知道提卡,在文本提取非常有用:MSWORD到XML/HTML使用Apache提卡

捲曲www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

但是有沒有辦法使用它將Ms Word文件轉換爲XML/HTML?

回答

1

是的,它涉及到你的命令改變百日咳4個字符!

如果運行java -jar tika-app-1.3.jar --help你會得到的東西,開頭:

usage: java -jar tika-app.jar [option...] [file|port...] 

Options: 
    -? or --help   Print this usage message 
    -v or --verbose  Print debug level messages 
    -V or --version  Print the Apache Tika version number 

    -g or --gui   Start the Apache Tika GUI 
    -s or --server  Start the Apache Tika server 
    -f or --fork   Use Fork Mode for out-of-process extraction 

    -x or --xml   Output XHTML content (default) 
    -h or --html   Output HTML content 
    -t or --text   Output plain text content 
    -T or --text-main  Output plain text content (main content only) 
    -m or --metadata  Output only metadata 
..... 

從這一點,你會發現,如果你改變你的--text選項--html--xml你會得到很好地進行格式化XML而不僅僅是純文本

+0

謝謝,但有沒有辦法保存文檔結構(表格等,在HTML/XML中)? – hmghaly 2013-04-10 09:23:56

+0

對於大多數文件格式,它已經被處理。 Word是其中的段落/表格/樣式名稱等 – Gagravarr 2013-04-10 09:51:38

1

儘管已經回答了這個事實,但由於使用java標記標記了問題,爲了完整起見,我將添加引用以輕鬆瞭解如何在java中執行此操作。

來自Tika單元測試的TikaTest.java超類是使用 getXML method.將單詞轉換爲html的最簡單參考可惜的是,他們在編寫單元測試時看到了這樣的API的用處,但選擇不將它公開爲一個方便的工具,迫使每個人處理處理程序等,這是常見用例的不幸樣板。

+1

如果您[從Tika網站上下載此示例](http://tika.apache.org/1.11/examples.html#Parsing_to_XHTML),您會發現獲取XHTML與獲取純文本的行數相同! – Gagravarr 2015-12-05 23:02:47