斯坦福大學NLP - NER - 列車NER名稱有多個標記

我最近開始看斯坦福大學NLP（使用C＃端口）。我已經計劃使用NER來識別商店位置名稱和產品名稱 - 爲此，我需要培訓tagger，我正在進行此操作。斯坦福大學NLP - NER - 列車NER名稱有多個標記

但是，例如「國王十字」的一些位置應該只在兩個標記在一起時才被認爲是一個位置。即當我在句子中使用它時，我不希望「國王」被標記爲位置。

所以我的問題確實是：有沒有一種定義的方式，建議我處理在其中有空格的位置/名稱（在我的培訓文件和代碼中）？

謝謝你的幫助。

你的兩個選擇是訓練一個統計標記算法，並希望它做正確的事情，或使用註釋器並提供一個已知命名實體的列表。例如，在已知命名實體的列表中，您可以包含Kings Cross的條目，並且只有在看到完整短語Kings Cross時纔有效。

更多文檔regexner可以在這裏找到：

2017-08-23 01:01:12 StanfordNLPHelp

啊，太好了！我沒有看到這個。謝謝你的指針:) –

這個在NER處理使用IOB標籤or some variation的標準方法。使用IOB標籤看起來是這樣的：

I  O 
went  O 
to  O 
Kings B-PLACE 
Cross I-PLACE

凡O意味着「無標籤」，B-XXX意思是「XXX」「XXX的開始」，並I-XXX手段。

標記系統將學習以word開頭的多詞標記，有時繼續使用I標記;這只是另一個標籤轉換。要從標記器輸出中收集多詞記號，只需完成一項任務，爲任何B創建一個條目，然後將I添加到它。

2017-08-23 05:11:54 polm23

回答