2012-03-05 59 views
1

我想將HTML頁轉換爲MS字。我想知道什麼API會有幫助,並且如果有其他選項可以做同樣的事情。 整個頁面將被轉換爲.doc(例如,如果html頁面中有表格,則必須在word doc中創建類似的表格)。 Apache POI不提供格式化單詞文檔的選項,如HTML頁面中所示。 我需要一些可以給我一個完全格式化的word文檔的東西。使用java或任何API將HTML頁轉換爲MS字

我尋求的一些東西是JSOUP,docx4j,jasper reportsJOD Convertor

我試着用JSOUP解析HTML頁面,並在我的java程序中得到了頁面的內容 。現在我需要將這些內容傳遞給 doc/docx文件。 docx4j可以幫助獲取格式化的docx文件嗎?

請大家幫忙。 謝謝。

+0

可能出現的重複[用Word以編程方式將Word文檔轉換爲HTML](http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java) – 2012-03-05 11:57:38

+0

將文件重命名爲.DOC。有用。 – 2012-03-05 12:07:16

+0

@AndreiBodnarescu:感謝您的鏈接。通過它。我希望它有助於 – 2012-03-05 12:10:20

回答

-3

我找到了一個方法來做同樣的事情。首先,我需要使用JSOUP獲取已分析的對象,並將這些對象傳遞給文檔模板。我現在正在尋找可以爲我創建簡單模板並動態創建文檔的選項。 我已經問了另外一個question

+1

i不要以爲你已經解釋瞭如何解決這個問題 – Edd 2012-07-17 17:35:22

1

我會用阿什維尼拉曼的建議去。它不適用於任何場景。如果一個複雜的HTML文檔中有很多圖片和東西,那麼Word將不會很好地工作。但在大多數情況下,它應該沒問題。否則,在你面前有一項複雜的任務。例如,您必須使用jsoup庫解析HTML文檔,然後使用docx4j庫創建工作文檔。 鏈接都是在這裏:

http://www.docx4java.org/trac/docx4j

http://jsoup.org/

當你也這樣做,格式可能是前途未卜。

要回答你原來的問題,不,沒有現成的庫,做你所期望的。至少我沒有遇到任何。

+0

是否有任何向後兼容性問題,通過改變擴展名將docx轉換爲doc? – 2012-03-13 06:03:25

+0

我只是嘗試將一個html文件重命名爲docx,它似乎也可以工作,所以不是將其重命名爲doc,而是將其重命名爲docx。如果有人使用Office 97-2003,那麼這些用戶可能會遇到問題嗎?如果您將其重命名爲.doc,那麼每個人都可以使用它。如果您沒有97-2003用戶,那麼它不應該成爲問題。 – sethu 2012-03-13 08:46:14

+0

我試過重命名文件當我嘗試打開docx文件時出現這些錯誤: 1)文件無法打開,因爲內容有問題。詳細信息:文件已損壞,無法打開。 2)Word在mySample中發現不可讀的內容。docx – 2012-03-13 12:07:37

相關問題