2011-02-03 119 views
4

我試圖抓取一個網站,有一個分裂的第二個JavaScript延遲。用javascript屏幕拖延網站延遲

我目前正在使用python進行刮擦。每當我'獲得'的頁面,JavaScript延遲尚未完成,尚未完全加載新的DOM。

我該如何刮這樣的pge?

+0

你可以發佈你想要刮的URL嗎,或者更好的還是一個能夠重現行爲的最小例子? – fmark 2011-02-03 08:07:01

回答

1

可以擴展的Mozilla建立一個網站刮板可以利用網絡瀏覽器的全部功能。在加載所有數據並構建了DOM之後,可以使用XSLT從DOM中提取所需的數據。如果DOM在初始加載後動態更改,則可以採取一些方法來等待更改。請訪問http://www.gooseeker.com瞭解更多信息。 GooSeeker爲每個人免費發佈一個類似的工具。大部分代碼都是用JavaScript編寫的,可以從中找到它的運行方式。