我正在使用NLTKword_tokenizer
將句子分成單詞。使用NLTK令牌化阿拉伯語詞彙
我要來標記這句話:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء
我寫的代碼是:
import re
import nltk
lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
的問題是,word_tokenize
功能不通過的話分裂。相反,它通過字母拆分,以便輸出爲:
"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"
任何想法?
到目前爲止,我已經到了什麼:
通過here試圖文本,它似乎是由字母標記化。另外,其他標記器也會正確標記它。這是否意味着word_tokenize
僅適用於英語?這是否適用於大多數NLTK功能?
是否http://stackoverflow.com/questions/7386856/python-arabic-nlp幫助嗎? (和stemmer http://nltk.org/api/nltk.stem.html#module-nltk.stem.isri) –