2010-07-22 24 views

回答

2

最好的方法是使用HTML解析器,如HTML Agilty Pack

從網站:

這是一個.NET代碼庫,使您解析「從網絡中」 HTML文件。解析器對「真實世界」格式錯誤的HTML非常寬容。對象模型與提出System.Xml非常相似,但是對於HTML文檔(或流)。

示例應用程序:

  • 頁固定或產生。您可以按照自己想要的方式修復頁面,修改DOM,添加節點,複製節點,以及...您將其命名。

  • 網頁掃描儀。你可以很容易地通過一堆XPATH查詢來獲得img/src或者/ hrefs。

  • 刮刀。例如,只需將XSLT文件用作綁定,就可以輕鬆地將任何現有網頁廢棄爲RSS提要。提供了一個例子。

0

使用XML解析器來獲得所有與他們的內容腳本標記。 Like this one: simple xml

+0

如果HTML不是格式良好的XML(想想有效的HTML標籤,例如'
'?這會破壞XML解析器。 – Oded 2010-07-22 12:49:28

相關問題