0
我有一個文本是HTML的一部分。我想將它保存到一個文件中。Ascii編解碼器無法解碼HTML時保存到Python中的文件
這在Eclipse的調試模式下工作正常,但在運行時從shell失敗。我正在使用一個失敗的html的簡短例子。
xx = '<input type="hidden" name="charset_test" value="€,´,€,´,水,Д,Є" />'
with codecs.open('myfile.htm'), 'wb', encoding="utf-8") as output:
output.write(data)
,我也得到:
Exception 'ascii' codec can't decode byte 0xe2 in position XXX: ordinal not in range(128)
其中XXX是如歐元標誌的「奇怪」的符號,相關文件的位置。
這是爲什麼這是從Eclipse而不是從shell工作?我該如何解決這個問題?
我試圖
HTMLParser.HTMLParser().unescape()
unquote()
unicode()
毫無效果......
'xx'是代碼中的一個實際變量還是你給出的文件的一個片段? – 2013-04-29 13:56:00
這只是一個片段,我使用XXX位置放大了它,因爲原始文件是一個非常大的文件 – eran 2013-04-29 17:12:52
您還沒有解決問題嗎?你正在處理的文件,它的編碼是什麼? – 2013-04-29 17:25:13