2012-05-15 80 views
0

好的,所以我一直在利用HTML tidy將常規HTML網頁轉換爲適合解析的XHTML。問題是我保存在firefox中的測試頁面在保存期間顯然已經被firefox預先清理過了,稱爲File F. Html tidy在文件F上工作正常,但是通過.NET將原始數據寫入文件失敗(文件N )。 Html tidy抱怨表單標籤與表標籤混合在一起。 Html不是我的,所以我不能修復源代碼。修復html tidy無法修復的格式不正確的HTML

如何清理文件N足以使其可以通過Html tidy運行?有沒有一種標準的方式連接到Firefox(完全編程而不必使用鼠標或鍵盤)或另一個工具,將額外修復的HTML?

回答

1

我一直在使用HTML tidy一段時間,但後來發現我從TagSoup得到了更好的結果。

它可以用作JAXP解析器,即時轉換非格式化的HTML。我通常讓它解析輸入爲Saxon XQuery轉換。

但它也可以作爲一個獨立的實用程序,作爲一個可執行的jar。

0

我在C#中使用SendKeys並從user32.dll中導入函數以將Firefox設置爲活動窗口,然後將其啓動到我想要的網站(file:/// myfilepathhere /)。

SendKeys似乎需要運行窗口程序,所以我還添加了另一個可執行文件,它在其form_load()方法中執行操作。

通過使用alt + f,向下六次,輸入,等待一會兒,鍵入完整路徑文件名,輸入(兩次),然後殺死Firefox,我能夠自動化firefox的能力來清理一些html。