我從Microsoft Word生成的html格式的文檔非常大。它是如此混亂和充滿臃腫的東西(如未知標籤,不知名的命名空間等等臃腫的東西)如何清理微軟的html文檔?
有沒有什麼辦法可以將它轉換成純html的html?
我從Microsoft Word生成的html格式的文檔非常大。它是如此混亂和充滿臃腫的東西(如未知標籤,不知名的命名空間等等臃腫的東西)如何清理微軟的html文檔?
有沒有什麼辦法可以將它轉換成純html的html?
嘗試HTML Tidy。我聽說它在MS Word生成的HTML上效果很好(至少可以達到Word 2000,但也可能在更新的版本上)。
這不是一個真正的編程問題,但Word(至少最近的版本)可以保存爲「Web Page,Filtered」,它可以刪除Office特定的標籤和屬性,並且只留下文檔所需的標籤在Web瀏覽器中呈現。所以,如果你有Word,你可以嘗試用它來打開HTML文檔並以這種格式保存。
您可能正在尋找HTML Tidy,其中幾乎每種語言都有適配器。它有清理Microsoft Word HTML輸出(和許多其他功能)的選項。
試試Cleanup HTML聯機工具清理word文件HTML