2
我一直在與NLTK合作進行研究以標記化阿拉伯文本並分析它。問題是,當我這樣做代碼:當用python標記阿拉伯語文本時我得到奇怪的結果?
bsm = 'بسم الله الرحمن الريحم'
wordsBsm = nltk.tokenize.wordpunct_tokenize(anas)
print " ".join(wordsBsm)
我得到這個我們放:
� � س� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
我不知道如何解決這個問題!
Python版本是什麼你使用什麼編碼? – BrenBarn
你會想要傳遞一個Unicode字符串('bsm = u'...'')。如果您使用Windows,在控制檯/解釋器上使用Unicode做任何事情都會遇到很多障礙。 – bobince