我正在開發webcrawler,以自動在巴西網站上下載一些文檔。它使用一些未知的編碼(頭標記中沒有定義字符集)。urllib編碼問題
通過一些非常小的努力,人們可以閱讀文檔。但真正的問題是,列出文檔的頁面使用包含加重字符的URL的鏈接。但是,在不知道頁面的編碼的情況下,當我從urllib2.urlopen中檢索它時,所有的字符都搞砸了。
例如Í
字符爲Cyrillic capital letter E
。
我使用BeautifulSoup和美化不起作用,因爲urllib2已經返回與壞字符的文檔。
還有一件事:soup.originalEncoding
返回None
。
如何設置urllib2.urlopen
以識別字符集或設置「期望的編碼」,以便返回瀏覽器上顯示的字符?
有多少巴西編碼可以呢? CP860? http://docs.python.org/library/codecs.html?highlight=codecs#standard-encodings – monkut 2012-08-16 13:27:05