-1
我想從文本中獲取所有單詞,包括unicode字符,不包括連字符或下劃線或任何其他非字母數字字符。如何匹配python regexp中的字母數字字符?
I.e.我想是這樣的:
>>> getWords('John eats apple_pie')
['John', 'eats', 'apple', 'pie']
>>> getWords(u'André eats apple-pie')
[u'André', u'eats', u'apple', u'pie']
隨着
getWords = lambda text: re.compile(r'[A-Za-z0-9]+').findall(text)
它適用於第一個例子,而不是第二,和周圍的其他方法與此:
getWords = lambda text: re.compile(r'\w+', re.UNICODE).findall(text)
按空格拆分字符串。簡單。 :) – Tushar
@Tushar和'_'和'-'? – jonrsharpe
你在發佈之前發佈了這個消息嗎? – jonrsharpe