從網頁上刮取源代碼的最佳方法？

我正在研究C＃應用程序。從網頁上抓取源代碼的最佳方式是什麼？從網頁上刮取源代碼的最佳方法？

現在，我只是在瀏覽器（Chrome）中查看頁面源代碼，將&粘貼到文本文件中，然後將其吸收到解析器中。

我想我會先在我的應用程序中創建一個可以粘貼URL的文本框。然後應用程序將拉動該頁面的源代碼，然後將其傳遞到我的解析器中。

2013-08-23 sion_corn

你問的問題太寬泛;你打算如何處理頁面源代碼？保存？對它做轉型嗎？如果您可以更深入地瞭解您的用例，Stack Overflow將能夠更好地爲您提供精確的幫助。 –

我會考慮HtmlAgilityPack。您可以輕鬆地下載一個頁面是這樣的：

HtmlDocument document = new HtmlDocument(); 
document.LoadHtml(new WebClient().DownloadString("http://www.bing.com"));

如果你正在尋找一個良好的分析器，以ScrapySharp還有，我有很好的經驗，這增加了擴展方法HtmlAgilityPack的的HTMLDocument輕鬆地選擇頁面上的元素使用CssSelectors像你在jQuery中發現，像這樣：

document.DocumentNode.CssSelect(".sessions .main-head-row td.download a.text-pdf")

2013-08-23 16:32:59

你會用WebClient撥打電話的網頁並獲取字符串值。

之後，你可以做一個簡單的string.IndexOf搜索標籤來忽略標籤的內容。

希望這可以幫助你:)

2013-08-23 16:36:03 Tushar

回答