2016-04-15 72 views
2

我有以下句子,我想刪除所有標點符號。如何在Python中刪除中文標點符號

首頁 » 政策法規 » 正文吉林省實施《中華人民共和國老年人權益保障法》若干規定 發佈時間: 2008-01-04    

我想刪除所有中文標點符號,包括空格「」。以下是我的代碼:

line = line.decode("utf8") 
line = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、[email protected]#¥%……&*():;《)《》「」()»〔〕-]+".decode("utf8"), "".decode("utf8"),line) 

但是,我仍然沒有刪除空白空間。我想知道是否有更簡單的方法來刪除中文標點符號?

+0

我想增加另一個句子'想做/兼_職/學生_ /的,加,我問:1 5 8 0 !! ?? 8 6。 0。 2. 3有,驚,喜,哦'在我的問題中,但我無法發佈。 – flyingmouse

+0

嗯,我認爲你的例子已經足夠了,這句話可能是垃圾郵件,所以不要將它添加到問題中。 –

回答

0

應用re.sub是sub(pattern, repl, string, count=0, flags=0)

爲你的代碼,pattern是unicode,repl是unicode太(實際上,不需要解碼),

string是utf-8編碼字符串不Unicode的

嘗試此,

print re.sub(ur"[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、[email protected]#¥%……&*():;《)《》「」()»〔〕-]+", "", s.decode("utf8")) 
相關問題