如何解析錯誤的HTML？

我正在寫一個搜索引擎，去我所有的公司分支機構網站解析HTML並將它們存儲在數據庫中。這些網站真的很舊，並且在100000個網站中不符合html標準，大約有25％的網站有不好的html，這使得它很難分析。我需要編寫一個c＃代碼來修復不良的html，然後解析這些內容或者提出一個解決上述問題的解決方案。如果你正在想法，一個實際的提示或代碼片段將有所幫助。如何解析錯誤的HTML？

來源

2012-05-23 VolleyBall Player

http://stackoverflow.com/questions/4587727/screen-scraping-html-with-c-sharp – Ani

可能的重複我知道Wordpress有一個自動正確的html代碼，你可以查看它的源代碼，看看如何他們這樣做 - 並嘗試相同的邏輯 –

你的意思是由不良的HTML？如果標籤沒有關閉，並且這樣的東西，我認爲解析將是一場噩夢。 –