我在Python 3.4中使用NLTK 3.0
,並且由於以下錯誤而無法進行POS標記: 我已閱讀全部similar posts related to similar problems,但找不到解決此問題的方法。大多數帖子提到升級到NLTK 3.0
將解決問題,但我已經有NLTK 3.0
。根據這些帖子,nltk的data.py
改變解決了這個問題,但NLTK
人不鼓勵這樣做。 這裏是我的代碼:使用nltk 3.0在python 3.4上進行pos標記時出現編碼錯誤
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad."))
,這裏是錯誤:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)
有沒有辦法做到這一點沒有操縱data.py
? 任何想法,將不勝感激。
您是否使用提供的接口('nltk.download()'或類似的東西)下載了NLTK數據,而不是手動(在這種情況下,您可能有Py2數據)?我的設置與您的設置完全相同,無法重現您的錯誤。 – michaelmeyer 2014-10-27 08:33:01