我正在研究C#應用程序。從網頁上抓取源代碼的最佳方式是什麼?從網頁上刮取源代碼的最佳方法?
現在,我只是在瀏覽器(Chrome)中查看頁面源代碼,將&粘貼到文本文件中,然後將其吸收到解析器中。
我想我會先在我的應用程序中創建一個可以粘貼URL的文本框。然後應用程序將拉動該頁面的源代碼,然後將其傳遞到我的解析器中。
我正在研究C#應用程序。從網頁上抓取源代碼的最佳方式是什麼?從網頁上刮取源代碼的最佳方法?
現在,我只是在瀏覽器(Chrome)中查看頁面源代碼,將&粘貼到文本文件中,然後將其吸收到解析器中。
我想我會先在我的應用程序中創建一個可以粘貼URL的文本框。然後應用程序將拉動該頁面的源代碼,然後將其傳遞到我的解析器中。
我會考慮HtmlAgilityPack。您可以輕鬆地下載一個頁面是這樣的:
HtmlDocument document = new HtmlDocument();
document.LoadHtml(new WebClient().DownloadString("http://www.bing.com"));
如果你正在尋找一個良好的分析器,以ScrapySharp還有,我有很好的經驗,這增加了擴展方法HtmlAgilityPack的的HTMLDocument輕鬆地選擇頁面上的元素使用CssSelectors像你在jQuery中發現,像這樣:
document.DocumentNode.CssSelect(".sessions .main-head-row td.download a.text-pdf")
你問的問題太寬泛;你打算如何處理頁面源代碼?保存?對它做轉型嗎?如果您可以更深入地瞭解您的用例,Stack Overflow將能夠更好地爲您提供精確的幫助。 –