2010-07-08 149 views
2

我正在嘗試從網站讀取數據。我可以看到我需要的值,但該值不會出現在下載的html代碼中(使用urllib2)。該值由一些js文件創建,並作爲該id的innerhtml嵌入到網頁中。 PS:如何提取?原始的源代碼不能呈現與瀏覽器不同的js!BeautifulSoup獲取innerhtml數據

回答

1

有兩種選擇:讓瀏覽器保存DOM(這包括腳本所做的所有更改)或使用JavaScript引擎執行嵌入式腳本。

對於後一種路由,請嘗試使用基於Java的引擎,如Rhino,並使用env.js模擬瀏覽器。

+0

如何自動保存瀏覽器的DOM?感謝您的模擬器方法,但是您是否知道這樣做的Python方法? – zubinmehta 2010-07-08 08:58:29

+0

按照mamoo的建議嘗試Selenium。 – 2010-07-08 14:50:06