將內容發送到我的網站的用戶使用Word,因此我得到大量Word文檔以轉換爲HTML。我只想保存基本格式 - 標題,列表和重點 - 沒有圖像。從MS Word或Libre Office清除HTML
當我轉換他們與自由報辦公室「另存爲HTML」,生成的文件是巨大的,例如,112K一個doc文件變成450K HTML,大部分無用字體和SPAN標籤(出於某種原因,每一個標點符號被包含在它自己的範圍內!)。
我試過這個腳本:基於tidy和sed的http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708,它將尺寸縮小到約150K,但仍然有許多無用的SPAN。
我試着複製並過去Kompozer--一個HTML編輯器,然後另存爲HTML;但它將所有非拉丁文(希伯來語)字母轉換爲實體,例如「ְ」,其大小增加到750K!
我試圖docvert:https://github.com/holloway/docvert/issues/6但發現它需要一個Python庫,需要另一個庫等,這似乎是依賴無盡的路線......
有一個簡單的方法來創建乾淨的HTML來自Office文檔?
這可能是一個重複:http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –