2014-11-08 27 views
0

我在文本中看到了類似\xe2\x80...的未知代碼,這些代碼究竟是什麼?我怎麼能從Python中的文本中刪除它們?使用python刪除文本中的未知代碼

這裏的文字:

"Are you using bribery \xe2\x80\x94 or the less provocative \xe2\x80\x9crewards\xe2\x80\x9d \xe2\x80\x94 to push your girls to succeed this year?" 
+0

它們表示UTF8編碼的字符。從我的理解你想打開一個文件,刪除這些UTF8字符並保存該文件? – Philibobby 2014-11-08 17:29:36

回答

0

你所看到的未知代碼是和引號。所以這些是用utf-8編碼的普通字符。如果您確實想刪除它們:

text_without_unicode_chrs = ''.join(ch for ch in text if ch<'\x80') 
+2

看起來有點難看,爲什麼不'text.decode(「ascii」,errors =「ignore」)'? – 2014-11-08 18:19:50