2012-11-19 29 views
6

我正在爲特定網頁編寫網絡抓取工具,我正在使用「urllib2.Request(MyURL)」和「BeautifulSoup」執行此操作,但問題是頁面上有頁面在myURL和下一個頁面加載(在同一myURL /頁)通過點擊一個鏈接,這個鏈接的背後,是寫成在Python的網頁上執行Javascript方法

{ javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 

現在不執行從Python的這個JavaScript函數JavaScript方法,我不能讓一個完整的頁面列表。我如何從Python中調用這個Javascript方法,以便我可以獲取該網頁的所有頁面?

我發現一個相關的問題here建議使用(犀牛,V8,SeaMonkey),但我沒有得到這一點。如果可能的話,我需要一些示例代碼。

回答

1

嘗試Selenium這種骯髒的工作(內聯js,ajax頁面加載)。它能夠模擬瀏覽器使用python和瀏覽器驅動程序所能完成的工作。

可使用關鍵詞「selenium crawler」獲取關於如何使用它作爲crawler的鏈接。

相關問題