2016-11-30 56 views
0

在下面的代碼中,爲什麼nltk認爲'select'是形容詞而不是動詞?POS tagging - NLTK認爲名詞動詞

>>> import nltk 
>>> t = nltk.tokenize.word_tokenize("select icon from icon") 
>>> nltk.tag.pos_tag(t) 
[('select', 'JJ'), ('icon', 'NN'), ('from', 'IN'), ('icon', 'NN')] 
+0

嗯,它是模棱兩可的。 – Max

回答

1

我想有沒有簡單的答案,因爲標記器與統計模型(我發現它被訓練與賓州樹庫here退避八卦馬爾可夫模型)的培訓。

我可以想象,「從圖標中選擇圖標」在訓練語料庫中是非常少見的情況(如果它發生了),那麼查看第一個單詞,除了可能用於新的開始之外沒有更多上下文信息句子,它將JJ分配爲最可能的標籤。

如果這對你來說是一個巨大的問題,你可以考慮使用類似於this之類的東西來訓練你自己的標記器在更多這類句子出現的語料庫上或者豐富舊語句。