我正在尋找一個庫(或命令行工具)將MS Office文檔轉換爲明文或HTML(用於轉換爲文本)。將Microsoft Office文檔轉換爲文本
它必須在Linux上運行(不通過Wine!)。
我發現了反義詞,但最後一個版本是2005,因此它不會讀取新的Office 2007格式。
我需要它來閱讀Word,Excel和PowerPoint文檔
我正在尋找一個庫(或命令行工具)將MS Office文檔轉換爲明文或HTML(用於轉換爲文本)。將Microsoft Office文檔轉換爲文本
它必須在Linux上運行(不通過Wine!)。
我發現了反義詞,但最後一個版本是2005,因此它不會讀取新的Office 2007格式。
我需要它來閱讀Word,Excel和PowerPoint文檔
Apache的POI庫可以extract text from office formats。這由Tika in Lucene使用。蒂卡可以作爲command line tool執行:
curl http://.../document.doc \
| java -jar tika-app-x.y.jar --text \
| grep -q keyword
新的Office 2007格式只是(ZIP)壓縮XML。
所有文本(至少爲.docx格式)都位於(一旦您解壓文件)文檔文件夾document.xml文件中。將其從所有XML標籤中剝離,然後您將看到文本。毫無疑問,你將失去格式化,但是如果你想做文本索引或類似的格式,那麼無論如何格式都是不相關的。訂單被保留。
我還沒有分析Excel和Powerpoint,但方法應該是類似的。 Excel可能會更棘手,這取決於單元格如何存儲在XML文件中。
PyODConverter用於自動化OpenOffice。用它來做轉換。
OONinja example將Doc轉換爲PDF,但支持任何OpenOffice支持的導入或導出都可以使用。如果需要,還具有無頭工作的優點。
您可以使用自治的KeyView的適當許可的應用程序中使用。它似乎非常強大,可以從幾乎所有的東西中提取文本;我們用它來識別任意格式文件中的文本。
我不知道的許可條款是什麼,但他們從你的帳戶管理者:)
多vacilation之間的各種解決方案之後(包括編寫我們自己的基於ECMA標準由Vunko的建議)我們可能會使用POI庫。 – RickMeasham 2009-11-20 01:54:18