我正在寫一個搜索引擎,去我所有的公司分支機構網站解析HTML並將它們存儲在數據庫中。這些網站真的很舊,並且在100000個網站中不符合html標準,大約有25%的網站有不好的html,這使得它很難分析。我需要編寫一個c#代碼來修復不良的html,然後解析這些內容或者提出一個解決上述問題的解決方案。如果你正在想法,一個實際的提示或代碼片段將有所幫助。如何解析錯誤的HTML?
0
A
回答
4
只需使用Html Agility Pack。這是非常好的解析錯誤的HTML代碼
+0
+1用於HAP解析格式不正確的HTML。 – Oded
+0
-1 HAP:它'解析'它,但我已經試過它的許多頁面得到完全錯誤的DOM模型。 –
1
1
使用一個tagsoup解析器,我相信是one for C#。然後,您可以將DOM序列化爲一個或多或少有效的HTML,具體取決於該分析器是否符合HTML DTD。或者,您可以使用HTML Tidy,這將清除至少最糟糕的故障。
正則表達式不適用於此任務。
相關問題
- 1. 錯誤 - HTML解析錯誤
- 2. 如何解析帶有錯誤的HTML?
- 3. 錯誤onPostExecute與HTML解析
- 4. HTML敏捷解析錯誤
- 5. 如何解決Joomla網站上的html解析器錯誤?
- 6. libxml的HTML解析錯誤使用C
- 7. 使用excel vba解析HTML的錯誤
- 8. json解析html內容的錯誤
- 9. 格式錯誤的XML/HTML解析
- 10. 使用HPPLE Html解析器的錯誤
- 11. 解析HTML中的Python BeautifulSoup錯誤
- 12. 簡單的HTML DOM解析器錯誤
- 13. 解析格式錯誤的HTML內容
- 14. 的java jsoup解析如何解析HTML
- 15. 解析錯誤解析錯誤
- 16. 解析錯誤:解析錯誤在PHP
- 17. 如何解析Python中的格式錯誤的HTML
- 18. JSON解析錯誤如何解決?
- 19. 如何解決XAML解析錯誤?
- 20. 如何解決json解析錯誤?
- 21. 如何複製Chrome能夠從錯誤的HTML'解析'DOM?
- 22. 如何處理HTTP錯誤在簡單的HTML DOM解析器
- 23. 如何解決PHP中的「解析錯誤:語法錯誤」?
- 24. jQuery解析HTML意外和錯誤
- 25. Jsoup,http錯誤416,解析HTML
- 26. DJ原生swing jwebbrowser html解析錯誤
- 27. android html下載和解析錯誤
- 28. 錯誤使用HTML解析器
- 29. HTML在IE8解析錯誤(KB927917)
- 30. JavaScript錯誤地解析HTML輸入值
http://stackoverflow.com/questions/4587727/screen-scraping-html-with-c-sharp – Ani
可能的重複我知道Wordpress有一個自動正確的html代碼,你可以查看它的源代碼,看看如何他們這樣做 - 並嘗試相同的邏輯 –
你的意思是由不良的HTML?如果標籤沒有關閉,並且這樣的東西,我認爲解析將是一場噩夢。 –