2012-01-27 36 views
1

我有一個掃描文本,單詞內可能有一些垃圾字符。垃圾字符通常不是字母數字或標點符號。Python - 使用正則表達式來查找帶有垃圾字符的單詞

我有以下的正則表達式:

garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)") 

此正則表達式發現,正確地包含一個垃圾字符的話。如果有兩個或更多垃圾字符,則正則表達式正在分割這些單詞。 例如aut〜mo¤il將被分成兩個單詞。如何讓我的正則表達式在包含兩個或更多垃圾字符時返回整個單詞。

回答

1

看來,您正在尋找這樣的表達式:

(\w*(?:[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:]\w*)+) 
+0

謝謝,它工作正常。 – user963386 2012-01-27 12:11:36

相關問題