2016-03-06 22 views
-1

我想從網頁中提取數據,爲此,我需要完整的html頁面。等待頁面(用javaScript)加載和刮取html

import urllib2 
req = urllib2.Request('https://www.example.com') 
response = urllib2.urlopen(req) 
fullhtml = response.read() 

我嘗試了Python庫ulrllib2,之後我運行代碼,我fullhtml變量只包含一個網頁的一部分,因爲我想在頁面的某些元素加載使用JavaScript,頁面後加載..

有沒有一種方法來等待「整頁加載」,我也嘗試過庫「硒」,但我不認爲它對我來說是有用的。 如果有另一種語言的解決方案(例如PHP),我願意改變語言,做到這一點。

感謝澄清,和對不起我的英語

+0

使用執行javascript的抓取程序或手動識別加載的部分(url)並獲取它們。 – m02ph3u5

+0

urllib2或Python核心中沒有其他東西會在任何地方執行javascript –

回答

1

看看這個http://phantomjs.org/。大多數網站都是基於javascript的,而php或python無法執行它們。我認爲這個圖書館將是你能得到的最好的圖書館。