我有一個CP1252編碼的文本文件,我使用python正則表達式匹配模式。例如,下面的文本可以通過正則表達式字符串'1\s*(\w*)\s*(<.*$)'
正則表達式用CP1252編碼的文件
1 kAMpleksa <fs af='kAMpleksa,unk,,,,,,'>
但是,當文本包含特殊字符,如重音的「U」在下面的文本,正則表達式匹配失敗匹配。
1 aBiyukÙwa <fs af='aBiyuk,unk,,,,,,'>
我讀使用Python的codecs
模塊使用以下語法從文件中的文本:
codecs.open('/home/abcl/TokenOutput.wx', 'r', 'cp1252')
任何想法,怎麼做呢?