等待頁面（用javaScript）加載和刮取html

-1

我想從網頁中提取數據，爲此，我需要完整的html頁面。等待頁面（用javaScript）加載和刮取html

import urllib2 
req = urllib2.Request('https://www.example.com') 
response = urllib2.urlopen(req) 
fullhtml = response.read()

我嘗試了Python庫ulrllib2，之後我運行代碼，我fullhtml變量只包含一個網頁的一部分，因爲我想在頁面的某些元素加載使用JavaScript，頁面後加載..

有沒有一種方法來等待「整頁加載」，我也嘗試過庫「硒」，但我不認爲它對我來說是有用的。如果有另一種語言的解決方案（例如PHP），我願意改變語言，做到這一點。

感謝澄清，和對不起我的英語

2016-03-06 koale

使用執行javascript的抓取程序或手動識別加載的部分（url）並獲取它們。 – m02ph3u5

urllib2或Python核心中沒有其他東西會在任何地方執行javascript –

看看這個http://phantomjs.org/。大多數網站都是基於javascript的，而php或python無法執行它們。我認爲這個圖書館將是你能得到的最好的圖書館。

2016-03-06 16:10:31

回答