2009-06-28 83 views
7

我從Microsoft Word生成的html格式的文檔非常大。它是如此混亂和充滿臃腫的東西(如未知標籤,不知名的命名空間等等臃腫的東西)如何清理微軟的html文檔?

有沒有什麼辦法可以將它轉換成純html的html?

回答

6

嘗試HTML Tidy。我聽說它在MS Word生成的HTML上效果很好(至少可以達到Word 2000,但也可能在更新的版本上)。

2

這不是一個真正的編程問題,但Word(至少最近的版本)可以保存爲「Web Page,Filtered」,它可以刪除Office特定的標籤和屬性,並且只留下文檔所需的標籤在Web瀏覽器中呈現。所以,如果你有Word,你可以嘗試用它來打開HTML文檔並以這種格式保存。

2

您可能正在尋找HTML Tidy,其中幾乎每種語言都有適配器。它有清理Microsoft Word HTML輸出(和許多其他功能)的選項。