2
我想閱讀NLTK的CategorizedPlainCorpusReader中的孟加拉語文本。對於這種快照我孟加拉語文本文件在gedit文本編輯器:文件在崇高的文本編輯器用Python自然語言工具包閱讀孟加拉語
快照:
從快照可以看到這個問題。問題在於Unicode組合問題(虛線環是一個死牌)。這裏是讀課文的代碼段:
>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')
輸出是:
輸出應該是 'একবার' 而不是'একব 'র'。可以做些什麼?提前致謝。
嘗試'RegexpTokenizer(「[\ u0980- \ u09FF'] +」)'(不知道你是否也需要'u'前綴)。 –
@WiktorStribiżew非常感謝。有效。 – Shauqi
作爲答案添加到帶有孟加拉Unicode字符範圍的參考網站的鏈接中。 –