2014-01-21 93 views
0

現在,我知道已經回答了有關標點符號剝離的上千個問題。不過,我的觀點與我所看過的有所不同。特定標點符號剝離Python

我需要一個代碼去除所有標點符號,連字符和單撇號除外。

到目前爲止我發現的代碼是:

import re 
def textStrip(): 
    text = input("Text? ") 
    return re.compile('\w+').findall(text) 

此作品夢幻般的剝離所有的標點,現在我想知道是否有一種方法可以例外添加到這個?或者如果有人有更好的方式在一起,這將有極大的幫助。謝謝!

樣品:

"A tall-ish wall, with trim.I don't want to paint it;" 

將返回:

["A", "tall-ish", "wall", "with", "trim", "I", "don't", "want", "to", "paint", "it"] 

回答

2

-'\w[...](意字符集):

>>> import re 
>>> text = "A tall-ish wall, with trim.I don't want to paint it;" 
>>> re.findall("[-'\w]+", text) 
['A', 'tall-ish', 'wall', 'with', 'trim', 'I', "don't", 'want', 'to', 'paint', 'it']