nltk stanford nerger和stanford ner tagger在線演示之間的不一致性

我正在使用python的內置庫nltk來獲取stanford ner tagger api設置，但是我看到stanford的ner tagger網站上的這個api標籤和在線演示文件之間的不一致。一些詞語在線演示時被標記出來，而它們並不在python中的api中，同樣一些詞語被標記爲不同的詞語。我使用了與網站中提到的相同的分類器。任何人都可以告訴我爲什麼會出現問題，以及它有什麼解決方案..？nltk stanford nerger和stanford ner tagger在線演示之間的不一致性

來源

2015-09-18 Sarthak Jain

您正在使用什麼版本CoreNLP的？我們偶爾會在版本之間更新模型。否則，機器之間偶爾會出現突破性的區別。 –

我發現了和Sarthak一樣的東西。特別是，我注意到一個人的姓名（例如Jones先生中的「Mr.」）之前的標題未被標記爲我正在使用的版本中的實體的一部分（3.7.0，已從2017年2月28日下載） http://nlp.stanford.edu/software/CRF-NER.shtml#Download），但它在在線演示中被標記。我想標題被標記。是否有可能在Github或其他地方獲得中間版本？（我正在使用7級模型）。 – user1895076

我遇到了同樣的問題，並確定我的代碼和在線演示文稿正在應用不同的格式規則。

https://github.com/dat/pyner/blob/master/ner/client.py

for s in ('\f', '\n', '\r', '\t', '\v'): #strip whitespaces 
      text = text.replace(s, '') 
     text += '\n' #ensure end-of-line

來源

2015-09-25 00:21:13

nltk stanford nerger和stanford ner tagger在線演示之間的不一致性

回答

相關問題