我需要從語言的混合得到的話一些幫助它包含了英語和泰盧固語,這是我到目前爲止的代碼蟒蛇正則表達式來數學英語和泰盧固語/梵文詞
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
sentence="hello world యూనియన్ యూనియన్"
sentence=sentence.decode('utf-8')
for m in re.finditer(ur'(\w|\’\w|\'\w)+', sentence, re.UNICODE):
start, end = m.span()
word = m.group().encode('utf-8')
print start, end, word
結果我」米預期是
0 5 hello
6 11 world
11 17 యూనియన్
17 23 యూనియన్
但結果我得到的是
0 5 hello
6 11 world
12 13 య
14 15 న
16 18 యన
20 21 య
22 23 న
24 26 యన
代碼分裂郎的每個字符並且給予獨立的開始和結束長度。有沒有什麼辦法可以得到上述格式的結果,而不是字符
它可以幫助我在代碼中很多你的幫助表示讚賞。 –