我是Python新手,所以這看起來很容易。我試圖刪除所有#,數字,如果相同的字母連續重複兩次以上,我需要將其更改爲只有兩個字母。這個工作完美,但不與ØÆÅ。Python正則表達式與ØÆÅ字母
任何想法如何用ØÆÅ字母做這件事?
#!/usr/bin/python
# -*- coding: utf-8 -*-
import math, re, sys, os, codecs
reload(sys)
sys.setdefaultencoding('utf-8')
text = "ån9d ånd ååååånd d9d flllllløde... :)asd "
# Remove anything other than digits
text = re.sub(r'#', "", text)
text = re.sub(r"\d", "", text)
text = re.sub(r'(\w)\1+', r'\1\1', text)
print "Phone Num : "+ text
結果我現在得到的是:
Phone Num : ånd ånd ååååånd dd flløde... :)asd
我要的是:
Phone Num : ånd ånd åånd dd flløde... :)asd
我們之前報道過,不是嗎?使用Unicode,而不是字節字符串。 –
從我[回答你以前的問題](http://stackoverflow.com/questions/16549161/python-re-compile-and-split-with-charcters/16549766#16549766):*在Python 2中,你會使用[unicode字符串示例],請注意字符串*和* [帶有re.UNICODE集的正則表達式] *中的前導u前綴。 –
嗨@MartijnPieters,通過查看你的意見,嘗試一些事情,我找到了解決辦法。 – boje