2011-03-21 115 views
0

我收到了一堆通過電子郵件發送給我的.docs文件,我正在編寫一個python腳本來提取正文和任何.doc或.pdf以及任何消息他們可能已經發送並根據答案可能會做更多,然後我想將其發送到我的Web服務器,並有一個PHP腳本格式的顯示。需要一個簡單的方法來顯示html文檔中的word文檔

我想在家用電腦上做任何轉換,因爲我沒有shell訪問web服務器,而php是我唯一支持的語言。在桌面上,我被開放給Python,C和C++,所有這些我都知道得更清楚,並且更適合這項工作。如果可能的話,我真的很想保持格式化,而且我不想試圖製作一個大型項目,所以如果它太複雜,我總是可以上傳.doc並在本地打開它。

+0

如果它不是太多,爲什麼不把它們手動保存爲HTML? – 2011-03-21 22:43:23

回答

0

使用反義詞進行MS Word內容提取。

http://www.winfield.demon.nl/

您可以選擇XML輸出格式保存基本格式。然後您可以使用XSLT來進行HTML格式化。

2

HTML轉換器有各種各樣的詞 - 商業和開源轉換器。最常見的轉換器(開源)可能是「wv」。您也可以使用Open-Office使用PyUNO橋(需要運行OpenOffice服務器)。如果您在Windows上,可以使用各種商業解決方案重新使用已安裝的Office安裝。一般來說:Google自己並根據您的需求和要求選擇一款轉換器。

1

您可以使用我們的Doc To HTML Converter執行此任務。此應用程序安裝在您的PC上,並以批處理模式一次性轉換許多輸入的MS Word文檔,並使用MS Word訪問其原始內容。該程序雖然不使用MS Word中內置的(X)HTML生成引擎,但它使用自己的實現,專門爲生成緊湊乾淨的代碼量身定製。它也不需要訪問互聯網來完成這項工作。