這個正則表達式假設去除表情符號,但是當我在示例文本上嘗試它時,它不起作用。它以前工作..不知道我缺少什麼。謝謝Python正則表達式去除表情符號不起作用
這裏是一個示例文本:pastebin.com/uYUNk9R1 放在要測試的記事本文檔中,Python 2.7。
import re
myre = re.compile('('
'\ud83c[\udf00-\udfff]|'
'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
'[\u2600-\u26FF\u2700-\u27BF])+'.decode('unicode_escape'),
re.UNICODE)
def clean(inputFile,outputFile):
with open(inputFile, 'r') as original,open(outputFile, 'w+') as out:
for line in original:
line = myre.sub('', line)
out.write(line)
你可以在你所遇到的問題澄清? – bgarcia
這會將行打印到標準輸出,但不會將它們寫入輸出文件。爲此你需要使用'out.write'。 –
對不起,這是我的原始代碼,但它仍然沒有工作,@ bgarcia我試圖從一段文字中刪除表情圖標。 – Sorry