是否可以定義特定語言字符將被視爲單詞。 也就是說再次不接受,O爲單詞字符,如果我搜索它們以下方式python re codecsäö,芬蘭語,定義爲單詞
Ft=codecs.open('c:\\Python27\\Scripts\\finnish2\\textfields.txt','r','utf–8')
word=Ft.readlines()
word=smart_str(word, encoding='utf-8', strings_only=False, errors='replace')
word=re.sub('[^äÄöÖåÅA-Za-z0-9]',"""\[^A-Za-z0-9]*""", word) ; print 'word= ', word #works in skipping ö,ä,å characters
我想,這些字符將被納入到[A-ZA-Z]。 如何定義這個?
第2行後的'word'將是一個** **名單Unicode字符串。 – jfs 2011-03-12 10:20:32
@ J.F。塞巴斯蒂安:很好。 – 2011-03-12 19:26:46