我試圖抓取一個網站,有一個分裂的第二個JavaScript延遲。用javascript屏幕拖延網站延遲
我目前正在使用python進行刮擦。每當我'獲得'的頁面,JavaScript延遲尚未完成,尚未完全加載新的DOM。
我該如何刮這樣的pge?
我試圖抓取一個網站,有一個分裂的第二個JavaScript延遲。用javascript屏幕拖延網站延遲
我目前正在使用python進行刮擦。每當我'獲得'的頁面,JavaScript延遲尚未完成,尚未完全加載新的DOM。
我該如何刮這樣的pge?
可靠的方法是通過網頁瀏覽器或網頁瀏覽器控件刮掉它, G。與我的宏scraping commands。它也可以通過Python/Linux。
您還可以通過自己在Windows上WebBrowser控件的代碼如下:http://www.codeproject.com/KB/cs/webbrowser.aspx
可以擴展的Mozilla建立一個網站刮板可以利用網絡瀏覽器的全部功能。在加載所有數據並構建了DOM之後,可以使用XSLT從DOM中提取所需的數據。如果DOM在初始加載後動態更改,則可以採取一些方法來等待更改。請訪問http://www.gooseeker.com瞭解更多信息。 GooSeeker爲每個人免費發佈一個類似的工具。大部分代碼都是用JavaScript編寫的,可以從中找到它的運行方式。
你可以發佈你想要刮的URL嗎,或者更好的還是一個能夠重現行爲的最小例子? – fmark 2011-02-03 08:07:01