2009-08-26 134 views
1

我想將doc/docx文檔轉換爲語義HTML。將doc/docx轉換爲語義HTML

一些願望/要求:

  1. 語義化的HTML使得文檔中的頁眉是<H1>,<H2>等,表是<表>等等。

  2. 應該最好能夠處理標題,列表,表格和圖像。圖和數學公式是一個很好的額外。

•不必直接從doc/docx轉換爲html,可以使用中間格式,如xml或docbook。

•應該以編程方式工作,並有大量文件。

到目前爲止我發現的解決方案最接近的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多的bug,小的用戶羣,它不能處理大量的文檔。更多的概念證明。

回答

1

有一個名爲upCast的工具,可以將Word文檔轉換爲XML。

+0

向上轉型是在正確的方向,但不正是我所期待的。我仍在搜索,所以進一步的技巧值得讚賞。 但是,我想將「答案」授予某人並選擇此選項。 – sandstrom

1

我寫了一個實用程序,它實現了您列出的要求,不包括圖像,圖表和數學公式。它的測試版質量(即它可以在我的機器上運行)。我發表在http://www.modeltext.com/word

2

「文檔中的標題是」 我認爲這是不可能的。 由於MS Word只記錄結果,不同樣式的<p> 就像紙上的印刷文字一樣,原始信息不會被記錄下來。

您的其他願望可以接近。 這裏有兩種商業工具可以做到這一點 (不要相信那些免費的工具或在線工具,他們沒有做真正的工作。)通過Zapadoo

1字清潔www.zapadoo.com
2通過奇蹟的Word的HTML清潔工 www.htmlcleaner.com

我更喜歡去年剛剛發佈的第二個。你可以嘗試他們兩個。

1

docx4j(僅適用於docx,不是doc)寫入乾淨的HTML輸出。如果你希望< h1>而不是< p class =「h1」>,那麼你需要改變一些東西,但它的開放源代碼讓你可以做到這一點。