我試圖在文本中詞彙單詞化。例如像「酸菜」應該轉向「泡菜」,「跑」到「運行」,「葡萄乾」到「葡萄乾」等Nltk的詞網lemmatizer不會引起所有單詞
我使用NLTK的WordNet Lemmatizer
如下:
from nltk.stem import WordNetLemmatizer
>>>
>>> lem = WordNetLemmatizer()
>>> print(lem.lemmatize("cats"))
cat
>>> print(lem.lemmatize("pickled"))
pickled
>>> print(lem.lemmatize("ran"))
ran
所以,正如你所看到的'pickled'
和'ran'
一樣,輸出結果並不如預期的那樣。如何獲得'pickle'
和'run'
這些,而不必指定'v'
(動詞)等詞。
怎麼樣[POS標記](http://www.nltk.org/api/nltk.tag.html#nltk.tag.pos_tag)? – lenz