Python urllib2返回noscript-content

我想用python 2.7.3和urllib2獲取幾個頁面的html內容。對於大多數頁面，它工作正常，但像http://www.bbc.co.uk/news/entertainment-arts-22441507#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa一些網頁回到我這個內容：Python urllib2返回noscript-content

此頁與樣式表（CSS）的最新網頁瀏覽器最佳瀏覽。雖然您可以在當前瀏覽器中查看此頁面的內容，但無法獲得完整的視覺體驗。如果可以，請考慮升級瀏覽器軟件或啓用樣式表（CSS）。

對於需要javascript的頁面也會發生此問題。我只收到返回的noscript-tag內的內容。

這裏是我得到的內容：

cj = cookielib.CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
response = urllib2.urlopen(url).read().decode("utf-8")

是否有額外的頭需要的？

看起來像用戶代理檢測到我。您可以嘗試添加模仿瀏覽器的僞造的用戶代理標題，例如'Mozilla/5.0（Macintosh; Intel Mac OS X 10.8; rv：20.0）Gecko/20100101 Firefox/20.0'。 – Xion 2013-05-11 13:27:45

爲什麼不使用更友好的'請求'圖書館的任何理由？ – SpankMe 2013-05-11 14:04:21

我用@Xion的requessts-library和header試了一下。仍然沒有成功，也許我做錯了什麼 – 2013-05-11 14:15:40

聽起來就像是你在提取原始HTML頁面之前，javascript/ajax已經去了。嘗試使用webkit來獲取應用了JavaScript的頁面。有關鏈接的答案，請參閱here。

2013-05-11 17:02:30 alexis

回答