0
我想用python 2.7.3和urllib2獲取幾個頁面的html內容。 對於大多數頁面,它工作正常,但像http://www.bbc.co.uk/news/entertainment-arts-22441507#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa一些網頁回到我這個內容:Python urllib2返回noscript-content
此頁與樣式表(CSS)的最新網頁瀏覽器最佳瀏覽。雖然您可以在當前瀏覽器中查看此頁面的內容,但無法獲得完整的視覺體驗。如果可以,請考慮升級瀏覽器軟件或啓用樣式表(CSS)。
對於需要javascript的頁面也會發生此問題。我只收到返回的noscript-tag內的內容。
這裏是我得到的內容:
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
response = urllib2.urlopen(url).read().decode("utf-8")
是否有額外的頭需要的?
看起來像用戶代理檢測到我。您可以嘗試添加模仿瀏覽器的僞造的用戶代理標題,例如'Mozilla/5.0(Macintosh; Intel Mac OS X 10.8; rv:20.0)Gecko/20100101 Firefox/20.0'。 – Xion 2013-05-11 13:27:45
爲什麼不使用更友好的'請求'圖書館的任何理由? – SpankMe 2013-05-11 14:04:21
我用@Xion的requessts-library和header試了一下。仍然沒有成功,也許我做錯了什麼 – 2013-05-11 14:15:40