2013-08-23 45 views
0

我正在研究C#應用程序。從網頁上抓取源代碼的最佳方式是什麼?從網頁上刮取源代碼的最佳方法?

現在,我只是在瀏覽器(Chrome)中查看頁面源代碼,將&粘貼到文本文件中,然後將其吸收到解析器中。

我想我會先在我的應用程序中創建一個可以粘貼URL的文本框。然後應用程序將拉動該頁面的源代碼,然後將其傳遞到我的解析器中。

+0

你問的問題太寬泛;你打算如何處理頁面源代碼?保存?對它做轉型嗎?如果您可以更深入地瞭解您的用例,Stack Overflow將能夠更好地爲您提供精確的幫助。 –

回答

2

我會考慮HtmlAgilityPack。您可以輕鬆地下載一個頁面是這樣的:

HtmlDocument document = new HtmlDocument(); 
document.LoadHtml(new WebClient().DownloadString("http://www.bing.com")); 

如果你正在尋找一個良好的分析器,以ScrapySharp還有,我有很好的經驗,這增加了擴展方法HtmlAgilityPack的的HTMLDocument輕鬆地選擇頁面上的元素使用CssSelectors像你在jQuery中發現,像這樣:

document.DocumentNode.CssSelect(".sessions .main-head-row td.download a.text-pdf") 
0

你會用WebClient撥打電話的網頁並獲取字符串值。

之後,你可以做一個簡單的string.IndexOf搜索標籤來忽略標籤的內容。

希望這可以幫助你:)