2016-04-29 49 views
-1

我正在使用html敏捷包創建網頁刮板,我有一個關於分頁的問題。 我通過網絡搜索找到一些東西來幫助我轉發,但我不在附近。我需要刮掉所有分頁頁面的內容。是否有任何機制來做到這一點使用htmlagility或任何幫助表示讚賞。 我還發現了其他應用程序,如硒和調查它。有沒有一種方法可以利用硒以及可擦性以及刮擦? 任何形式的幫助將不勝感激。 謝謝使用HtmlAgilityPack刮網頁分頁

+0

您當然可以使用HtmlAgility頁面來獲取頁面上的所有鏈接,包括分頁鏈接,但是您的問題太寬泛而無法回答。你有什麼嘗試?這裏有一個使用HtmlAgility包來抓取網站的例子:http://blog.abodit.com/2010/03/a-simple-web-crawler-in-c-using-htmlagilitypack/ –

+0

謝謝伊恩,我已經利用HAP刮網站,但我沒有意識到與分頁的東西。所以只是想得到新鮮的想法 – shunilkarki

+0

分頁通常是作爲一串鏈接(1 2 3 ... n)實現的,有時候會隨着探索而發展(... 4 5 6 ...)或者你的意思是別的? –

回答

1

當然你可以使用HAP和Selenium一起使用。基本上,你可以瀏覽到使用硒驅動程序中的一個URL,然後加載HTML到HAP,類似如下:

IWebDriver driver = new FirefoxDriver(); 
driver.Navigate().GoToUrl(url); 
HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(driver.PageSource); 

,一旦你做了解析當前頁面,導航司機到下一個頁面(找到下一頁的鏈接並執行點擊操作),並再次將HTML傳遞給HAP。無論如何,我認爲大多數HAP功能可以被Selenium替代,因此您可能只想考慮使用Selenium。