我想將doc/docx文檔轉換爲語義HTML。將doc/docx轉換爲語義HTML
一些願望/要求:
語義化的HTML使得文檔中的頁眉是<H1>,<H2>等,表是<表>等等。
應該最好能夠處理標題,列表,表格和圖像。圖和數學公式是一個很好的額外。
•不必直接從doc/docx轉換爲html,可以使用中間格式,如xml或docbook。
•應該以編程方式工作,並有大量文件。
到目前爲止我發現的解決方案最接近的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多的bug,小的用戶羣,它不能處理大量的文檔。更多的概念證明。
向上轉型是在正確的方向,但不正是我所期待的。我仍在搜索,所以進一步的技巧值得讚賞。 但是,我想將「答案」授予某人並選擇此選項。 – sandstrom