我有一個腳本這就是通過數據庫循環和與替換一些文本與其他文本一起在弦上做一些beautifulsoup處理等python - 如何將html字符串轉換爲utf-8?獲取的UnicodeDecodeError錯誤
這工作100%的大部分時間,但一些HTML斑點似乎包含這打破了以下錯誤的腳本Unicode文本:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 112: ordinal not in range(128)
我不知道在這種情況下做什麼,沒有人知道一個模塊/功能的強制所有的文本字符串中要一個標準化的UTF-8什麼的?
數據庫中的所有html blob都來自feedparser(下載rss提要,以db存儲)。
您知道使用哪種編碼?如果沒有,那麼你必須猜測它,轉換爲Unicode並重新保存數據爲UTF-8。美麗的解析器通常擅長猜測編碼,但您也可以嘗試['chardet'](http://pypi.python.org/pypi/chardet)。 – Bakuriu
嘗試使用'.encode(「utf8」)'或'.encode(「utf-8」)' – Amyth
在沒有看到產生錯誤的腳本的情況下很難提供幫助。 –