如何在Python中讀取帶特殊字符的文件

我已經使用Apache Tika爬取pdf，html，doc文件並將結構化文本存儲到文本文件中。這些文本文件包含一些不常見的特殊字符，因爲這些特殊字符我無法閱讀這些文字files.I有下面的代碼片段來讀取文件如何在Python中讀取帶特殊字符的文件

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

不過，我收到以下錯誤

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

請，建議我怎麼看我的文本文件。謝謝

您需要將'errors'關鍵字參數設置爲默認strict以外的值。你可以找到一個可能的列表（Python 3.3）here。該列表在「codecs.register（）」文檔中列舉。

我會從'替換'選項開始，這樣你就可以看到你在處理什麼。

2013-08-02 10:26:25

回答