2017-08-22 50 views
0

我最近開始看斯坦福大學NLP(使用C#端口)。 我已經計劃使用NER來識別商店位置名稱和產品名稱 - 爲此,我需要培訓tagger,我正在進行此操作。斯坦福大學NLP - NER - 列車NER名稱有多個標記

但是,例如「國王十字」的一些位置應該只在兩個標記在一起時才被認爲是一個位置。即當我在句子中使用它時,我不希望「國王」被標記爲位置。

所以我的問題確實是:有沒有一種定義的方式,建議我處理在其中有空格的位置/名稱(在我的培訓文件和代碼中)?

謝謝你的幫助。

回答

1

你的兩個選擇是訓練一個統計標記算法,並希望它做正確的事情,或使用註釋器並提供一個已知命名實體的列表。例如,在已知命名實體的列表中,您可以包含Kings Cross的條目,並且只有在看到完整短語Kings Cross時纔有效。

更多文檔regexner可以在這裏找到:

https://nlp.stanford.edu/software/regexner.html

+0

啊,太好了!我沒有看到這個。謝謝你的指針:) –

0

這個在NER處理使用IOB標籤or some variation的標準方法。使用IOB標籤看起來是這樣的:

I  O 
went  O 
to  O 
Kings B-PLACE 
Cross I-PLACE 

O意味着 「無標籤」,B-XXX意思是 「XXX」 「XXX的開始」,並I-XXX手段。

標記系統將學習以word開頭的多詞標記,有時繼續使用I標記;這只是另一個標籤轉換。要從標記器輸出中收集多詞記號,只需完成一項任務,爲任何B創建一個條目,然後將I添加到它。

相關問題