2013-03-11 39 views
0

我需要提取文本中的單詞和短語。例如,文本是:如何使用python從文本中提取單詞?

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456 

而且腳本應該返回如下:

Привет 
как 
дела 
еще 
одно 
русское 
слово 
слово-1224 

也就是說,我需要的所有以俄文字母開頭的單詞的文本,以([а-яА-Яё-] ),並且可以包含俄文字母的數字和字母。這是如何實施的?

+0

我認爲你是在談論這個, http://stackoverflow.com/questions/5717886/python-regex-extracting-whole-words 問候。 – 2013-03-11 07:36:59

+1

這是一個使用正則表達式的簡單任務。請閱讀他們的工作方式:) – 2013-03-11 07:38:48

+1

你的一些詞彙中間有一個「 - 」,但你在這個問題中沒有提到它。 – LtWorf 2013-03-11 08:11:14

回答

1

這比我想象的有點棘手。從未使用cyrrilic字符。我相信這應該這樣做:

text = # Set you're input unicode string here. 
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text) 

for word in words: 
    print word