2011-06-28 39 views
7

我們正在搜索一個允許我們將doc或docx文檔轉換爲txt文件的程序。我們正在使用linux,並且我們希望啓動一個網站來轉換用戶上傳的doc文件。我們不想使用開放式辦公室/免費辦公室,因爲我們對此有不好的經驗。 Pandoc無法處理doc文件:/通過命令行將文檔轉換爲txt

任何人都有想法?

回答

1

這裏是一個perl project它聲稱做到這一點。我也手動完成了很多工作,在document.xml上使用XSLT。 Docx文件本身只是一個zip文件,您可以將其解壓縮並檢查元素。我會說這對於特定文件來說並不難,但是在一般情況下很難做到,因爲缺乏關於Word如何存儲內容的文檔以及內部表示的差異。

3

您將不得不使用兩種不同的命令行工具,具體取決於您使用的是.doc還是.docx格式。

對於.DOC使用catdoc:

catdoc foo.doc > foo.txt 

對於.DOCX使用docx2txt:

docx2txt foo.docx 

後者會產生一種名爲foo.txt的在同一目錄與原始文件。

我不確定您使用的是哪個Linux發行版,但catdoc和docx2txt都可以從Ubuntu存儲庫獲得,例如。

相關問題