2014-11-13 104 views
1

我一直在使用斯坦福NER標記器在文檔中查找命名實體。我現在面臨的問題描述如下: -命名實體識別中實體的分割

讓句子是The film is directed by Ryan Fleck-Anna Boden pair.

現在NER惡搞標誌着瑞安作爲一個實體,斑點,安娜作爲另一個和博登作爲第三個實體。正確的標記應該是Ryan Fleck和另一個Anna Boden。

這是NER tagger的問題嗎?如果它是可以處理的?

回答

0

除了使用stanford-coreNLP,你可以嘗試Apache opeNLP。有可用的選項根據您的訓練數據來訓練您的模型。由於此模型取決於您提供的名稱,因此它可以檢測您感興趣的名稱。

1

如何

  • 把你的數據,並通過斯坦福NER或其他一些NER運行它。
  • 看結果並找出所有錯誤
  • 正確標記不正確的結果並將它們反饋回您的NER。
  • 泡沫,漂洗,重複...

這是一種手動提升技術。但是你的NER可能不會以這種方式學得太多。

在這種情況下,它看起來有一個新功能,連字符名稱,NER需要了解。爲什麼不編一些帶連字符的名字,把它們放在一些文本中,然後給它們加上標籤並訓練你的NER?

您應該通過添加更多功能,更多數據和培訓來達到目標​​。