2010-04-18 61 views

回答

12

SeleniumRCselenium.py是一個替代方案(如果您需要刮取的頁面對於Javascript操作具有重要的「結構」角色,尤其是AJAX-y,因爲Mechanize不執行它正在抓取的頁面上的Javascript)。

7

對於抓取和表單處理,您可以使用lxml.html(儘管它不會自動抓取和cookie)。

scrapy是一個專門用於抓取的庫。

3

我用了twill來滿足很多測試需求。它可以作爲「網頁瀏覽」的獨立語言,也可以作爲Python的圖書館。它實際上使用了機械化,因此我不確定它是否能夠滿足您的需求 - 您是否遇到機械化固有的問題,或者您是否會從高層獲益?

3

我已經成功地與Splinter,建立在硒之上的解決方案 - 同時提供更Python API。