2011-06-28 19 views
0

我在尋找能夠處理帶有Ajax的網頁並能夠在開始抓取網站之前與目標網站進行特定用戶交互的抓取工具(例如,點擊某些菜單項,填寫一些表格等等)我嘗試了webdriver/selenium(這是真正的網頁抓取工具),現在我想知道是否有任何可用的爬網程序支持模擬某些用戶交互開始爬行? (在Java或Python或Ruby ...)網頁抓取工具,支持在開始抓取前與目標網站進行交互

感謝

PS - 可以Nutch的做到這一點?如果是的話,我感謝任何描述這一點的鏈接。

回答

0

您可以嘗試將硒連接到基於python的履帶,如scrapy。無論何時需要處理AJAX,它都會啓動一個用硒刮擦的外部過程。

1

Nutch不處理AJAX,Cookie或您描述的任何用戶交互。