我試圖從網站頁面解析cyrillyc文本,如果我嘗試打印包含在引號中的引號的湯匙。字 「字」BeautifulSoup錯過一些字母從UTF-8解碼到unicode
error 'charmap' codec can't encode character u'\xab' in position 6: charater maps to undefined
原始字符串頁面(UTF-8)
urllib2.urlopen raw page = bbb = '\xab\x80\xd1\x8c\xc2\xbb'
\ XBB和\ xab-它的右引號
我嘗試轉換由專人爲Unicode( BeautifulSou p還這太) unicode(bbb, 'utf8', errors='ignore')
但inspite錯誤關鍵的「忽略」未知元素,他們仍然存在INT
我得到
\xab\u0446\u0435\u0437\u0430\u0440\u044c**\xbb**'
我嘗試刪除開始與所有未知元素^ \ X與幫助普通EXP,但它不工作
bbb = re.sub(r'[\x00-\x7f]', r' ', bbb)
問題不在於bs4,它是您系統上的編碼問題。 –