我一直在使用斯坦福NER標記器在文檔中查找命名實體。我現在面臨的問題描述如下: -命名實體識別中實體的分割
讓句子是The film is directed by Ryan Fleck-Anna Boden pair.
現在NER惡搞標誌着瑞安作爲一個實體,斑點,安娜作爲另一個和博登作爲第三個實體。正確的標記應該是Ryan Fleck和另一個Anna Boden。
這是NER tagger的問題嗎?如果它是可以處理的?
我一直在使用斯坦福NER標記器在文檔中查找命名實體。我現在面臨的問題描述如下: -命名實體識別中實體的分割
讓句子是The film is directed by Ryan Fleck-Anna Boden pair.
現在NER惡搞標誌着瑞安作爲一個實體,斑點,安娜作爲另一個和博登作爲第三個實體。正確的標記應該是Ryan Fleck和另一個Anna Boden。
這是NER tagger的問題嗎?如果它是可以處理的?
除了使用stanford-coreNLP,你可以嘗試Apache opeNLP。有可用的選項根據您的訓練數據來訓練您的模型。由於此模型取決於您提供的名稱,因此它可以檢測您感興趣的名稱。
如何
這是一種手動提升技術。但是你的NER可能不會以這種方式學得太多。
在這種情況下,它看起來有一個新功能,連字符名稱,NER需要了解。爲什麼不編一些帶連字符的名字,把它們放在一些文本中,然後給它們加上標籤並訓練你的NER?
您應該通過添加更多功能,更多數據和培訓來達到目標。