2009-08-11 119 views
1

我正在構建一個Web應用程序爬網程序,這意味着不僅要查找Web應用程序中的所有鏈接或頁面,還要在應用程序中執行所有允許的操作(例如按下按鈕,填充表單,注意DOM中的變化,即使它們沒有觸發請求等)構建自動網絡爬蟲

基本上,這是一種「瀏覽器模擬器」。

我發現WebKit是一個很好的選擇來實現我的爬蟲,因爲它具有所有必需的技術(JavaScript引擎,解析器,DOM操作等),但它似乎是一種矯枉過正的功能齊全的瀏覽器。

有沒有可以提供上述功能的工具包?

回答

1

我使用的WebKit通過PyQt的解析JavaScript,然後Mechanize與它互動。