我在Python中使用urllib和urllib2來打開和閱讀網頁,但有時,我得到的文本是不可讀的。例如,如果我運行此:爲什麼從頁面檢索的文本有時看起來像是亂碼?
import urllib
text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text
我得到一些不可讀的文本。我看過這些帖子:
Does python urllib2 automatically uncompress gzip data fetched from webpage?
,但似乎無法找到我的答案。
非常感謝您的幫助!
UPDATE:我通過固定「可信」服務器的問題,我的用戶代理是一個布勞爾而不是爬行。
import urllib
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'
nop = NewOpener()
html_text = nop.open('http://tagger.steve.museum/steve/object/141913').read()
謝謝大家的回覆。
urlopen(youUrl)的結果是Javascript。這個腳本真的是你想要得到的內容,還是想獲得網頁的實際內容(顯示瀏覽器的內容)? –