2015-09-18 68 views
3

我正在使用python的內置庫nltk來獲取stanford ner tagger api設置,但是我看到stanford的ner tagger網站上的這個api標籤和在線演示文件之間的不一致。一些詞語在線演示時被標記出來,而它們並不在python中的api中,同樣一些詞語被標記爲不同的詞語。我使用了與網站中提到的相同的分類器。任何人都可以告訴我爲什麼會出現問題,以及它有什麼解決方案..?nltk stanford nerger和stanford ner tagger在線演示之間的不一致性

+0

您正在使用什麼版本CoreNLP的?我們偶爾會在版本之間更新模型。否則,機器之間偶爾會出現突破性的區別。 –

+0

我發現了和Sarthak一樣的東西。特別是,我注意到一個人的姓名(例如Jones先生中的「Mr.」)之前的標題未被標記爲我正在使用的版本中的實體的一部分(3.7.0,已從2017年2月28日下載) http://nlp.stanford.edu/software/CRF-NER.shtml#Download),但它在在線演示中被標記。我想標題被標記。是否有可能在Github或其他地方獲得中間版本? (我正在使用7級模型)。 – user1895076

回答

0

我遇到了同樣的問題,並確定我的代碼和在線演示文稿正在應用不同的格式規則。

https://github.com/dat/pyner/blob/master/ner/client.py

for s in ('\f', '\n', '\r', '\t', '\v'): #strip whitespaces 
      text = text.replace(s, '') 
     text += '\n' #ensure end-of-line 
相關問題