我們需要在斯坦福大學添加術語到命名實體提取表/模型,但無法弄清楚。用例 - 我們需要隨着時間的推移構建一組IED條款,並希望Stanford管道在文本文件中找到條款。用新術語擴展斯坦福NER術語
看看是否這是前
我們需要在斯坦福大學添加術語到命名實體提取表/模型,但無法弄清楚。用例 - 我們需要隨着時間的推移構建一組IED條款,並希望Stanford管道在文本文件中找到條款。用新術語擴展斯坦福NER術語
看看是否這是前
請看看http://nlp.stanford.edu/software/regexner/來看看如何使用它的東西有人做了。它允許你指定一個短語映射到實體類型的文件。當你想更新映射時,你更新文件並重新運行斯坦福管道。
如果你有興趣在如何真正學習模式的條件隨着時間的推移,你可以看看我們的模式學習系統:http://nlp.stanford.edu/software/patternslearning.shtml
你能指定要應用的標籤?
要使用RegexNER所有你需要做的是建立一個文件,每個表格的第一行輸入:
TEXT_PATTERN \ TTAG
你會把所有你想要的東西在你的自定義詞典到一個文件,說custom_dictionary.txt
我被IED假設你的意思
https://en.wikipedia.org/wiki/Improvised_explosive_device?
所以你的文件可能是這樣的:
VBIED \ tIED_TERM
粘性炸彈\ tIED_TERM
RCIED \ tIED_TERM
新國\ tLOCATION
新人物\ tPERSON
(注意堆棧溢出有一些奇怪的格式,不應該有每個項目之間的空行,這應該是每行1項!!)
如果然後運行這個命令:
的Java -mx1g -cp「*」埃杜。 stanford.nlp.pipeline.StanfordCoreNLP -annotators '記號化,SSPLIT,POS,引理,regexner,NER' -file sample_input.txt -regexner.mapping custom_dictionary.txt
你會標記sample_input.txt
更新是隻是更新的問題custom_dictionary.txt
有一件事要注意,如果先在註釋器列表中先放入「ner」或「regexner」,那麼這很重要。
如果您的最高優先級是使用您的專用術語(例如IED_TERM)進行標記,那麼我會首先在管道中運行regexner,因爲標記器之間如何相互覆蓋有一些棘手的問題。
我忘了提及我們指向RegexNER,並不清楚我們如何編寫一個接口來提交新事物,人物或地點成爲提取詞典的一部分。 –