我最近開始看斯坦福大學NLP(使用C#端口)。 我已經計劃使用NER來識別商店位置名稱和產品名稱 - 爲此,我需要培訓tagger,我正在進行此操作。斯坦福大學NLP - NER - 列車NER名稱有多個標記
但是,例如「國王十字」的一些位置應該只在兩個標記在一起時才被認爲是一個位置。即當我在句子中使用它時,我不希望「國王」被標記爲位置。
所以我的問題確實是:有沒有一種定義的方式,建議我處理在其中有空格的位置/名稱(在我的培訓文件和代碼中)?
謝謝你的幫助。
我最近開始看斯坦福大學NLP(使用C#端口)。 我已經計劃使用NER來識別商店位置名稱和產品名稱 - 爲此,我需要培訓tagger,我正在進行此操作。斯坦福大學NLP - NER - 列車NER名稱有多個標記
但是,例如「國王十字」的一些位置應該只在兩個標記在一起時才被認爲是一個位置。即當我在句子中使用它時,我不希望「國王」被標記爲位置。
所以我的問題確實是:有沒有一種定義的方式,建議我處理在其中有空格的位置/名稱(在我的培訓文件和代碼中)?
謝謝你的幫助。
你的兩個選擇是訓練一個統計標記算法,並希望它做正確的事情,或使用註釋器並提供一個已知命名實體的列表。例如,在已知命名實體的列表中,您可以包含Kings Cross
的條目,並且只有在看到完整短語Kings Cross
時纔有效。
更多文檔regexner
可以在這裏找到:
這個在NER處理使用IOB標籤or some variation的標準方法。使用IOB標籤看起來是這樣的:
I O
went O
to O
Kings B-PLACE
Cross I-PLACE
凡O
意味着 「無標籤」,B-XXX
意思是 「XXX」 「XXX的開始」,並I-XXX
手段。
標記系統將學習以word開頭的多詞標記,有時繼續使用I
標記;這只是另一個標籤轉換。要從標記器輸出中收集多詞記號,只需完成一項任務,爲任何B
創建一個條目,然後將I
添加到它。
啊,太好了!我沒有看到這個。謝謝你的指針:) –