我一直在思索寫這個問題很長一段時間。如何將文檔從.doc文件轉換爲文本
我在越南的一家小型新聞公司工作。
我的服務器運行的文件是Ubuntu的最新版本(顯然是PHP/Apache),這意味着像.doc和.docx這樣的格式將無法在本機打開,就我而言知道。
但是,當記者上傳文件時,有一半時間他們以某種微軟格式進行。這意味着我的Linux機器無法打開和選擇關鍵字,這對我來說是非常令人沮喪的;這是因爲像pdf2txt.py
這樣的東西不起作用。
解決這個問題的方法是什麼,不會給記者帶來太多不便?我知道,因爲我運行的是Linux服務器,所以我可能不得不運行某種第三方應用程序來爲我做這些工作,這可能會在短期內起作用,但可能會帶來一些安全風險。
摘要:如何讓Linux服務器自動將諸如.doc和.docx之類的任何格式轉換爲PDF格式以供進一步操作?
使用OpenOffice/LibreOffice。它打開MSOffice文件做得不錯。 –
Microsoft Word docx文件是XML,因此您應該能夠相當容易地解析出其元數據。 – Jason
[Doc to PDF with PHP + Openoffice]的可能重複(http://stackoverflow.com/questions/4652038/doc-to-pdf-with-php-openoffice) - 然而LibreOffice更容易,因爲它提供了一個無頭指令開關。 – mario