我想加載一個文件保存爲UTF-8到包含14種不同語言的Python(ver2.6.6)。我正在使用python codecs
模塊來解碼txt文件。Python編解碼器模塊
import codecs
f = open('C:/temp/list_test.txt', 'r')
for lines in f:
line=filter_str(lines.decode("utf-8")
這一切都很好。我解析整個文件,然後想要導出12個不同的語言文件。我不明白的問題是以下
我用輸出下面的代碼:
malangout = codecs.open("C:/temp/'polish.txt",'w','utf-8','surrogateescape')
for item in lang_dic['English']:
temp = lang_dic[lang1][item]
malangout.write(temp + '\n')
malangout.close()
例子:
- 語言:波蘭
- 預期輸出:Dziennikzakłóceń
- 實際產量:Dziennikzak,óceƒ
的字符串存儲爲是:
u'Dziennik zak\u201a\xf3ce\u0192'
我試圖從python文檔(7.8編解碼器)許多編碼。任何信息在這一點上都會有所幫助。
您在評論中說:「我將ascii文件保存爲記事本中的UTF-8」:ascii是utf8的子集,不會導致問題。你的意思是「ANSI」而不是「ascii」? '導入區域設置的結果是什麼?在你的系統上打印(locale.getpreferredencoding())? –