2017-09-24 27 views
0

考慮三種不同的方式(「大衛大衛大衛」)提出的名爲「大衛」,CoreNLP只能夠標記#1和#2 MALE儘管#3是唯一被標記爲PERSON的人。我使用最初提供的標準模型,並試圖實施here列出的建議,但NER之前不允許使用「性別」。我的測試下面是在Java和Jython(如Word,性別,NER標籤)相同的結果:CoreNLP的GenderAnnotation無法標籤寫在正確的格式名稱

DAVID, MALE, O 
david, MALE, O 
David, None, PERSON 
+0

嗨,這看起來破碎的我。我將要審查GenderAnnotator並做出一些修復來解決這個問題。當新版本提交給GitHub時,我會通知您。 – StanfordNLPHelp

回答

0

這是斯坦福大學CoreNLP 3.8.0的錯誤。

我做了一些修改GenderAnnotator並提交他們。它們現在在GitHub上可用。我仍在研究這個問題,所以可能在第二天左右會有進一步的改變,但我認爲這個問題現在已經解決了。您還需要剛更新的包含名稱列表的最新版本的模型jar。我相信不久我會建立更大名單的另一個模型罐。

GenderAnnotator的新版本需要entitymentions註釋使用。此外,新版本記錄了提及實體的CoreMap和實體提及的每個令牌的性別。

你可以學習如何與斯坦福CoreNLP的最新版本工作過的GitHub這裏:https://stanfordnlp.github.io/CoreNLP/download.html

+0

感謝您的幫助,因爲更改完美無缺,但我還有另一個問題。將名字轉移到三個不同的文件中,我如何爲兩個性別提供我自己的數據庫文件? –

+0

我將更改代碼以允許您提交自己的名稱列表。 – StanfordNLPHelp

+0

大約10-20分鐘後,更改將在GitHub上進行。您需要使用「gender.maleNamesFile」和「gender.femaleNamesFile」屬性。 – StanfordNLPHelp