我是NLP的新手,並試圖找出名稱實體識別器如何註釋命名實體。我正在試驗斯坦福NER工具包。當我在標準的更正式的數據集上使用NER時,NER遵循所有命名約定來表示命名實體,例如在新聞專線或新聞博客中,NER正確註釋這些實體。但是,當我運行非正式數據集(如twitter)時,NER不會像應該一樣使用大寫字母,NER不會註釋這些實體。我正在使用的分類器是3-CRF序列化分類器。任何人都可以告訴我如何讓NER識別小寫字母?非常感謝有關如何破解NER以及如何進行改進的有用建議。預先感謝您的幫助。斯坦福NER工具包 - 小寫實體識別
回答
我覺得Twitter對於這個應用程序來說非常困難。大寫字母是一個很大的線索,正如你所說,在Twitter上經常缺失。用於刪除有效英文單詞的字典檢查功能有限,因爲Twitter文本包含大量的縮寫詞,而且它們通常是唯一的。
也許語音標記和頻率分析都可以用來幫助改善專有名詞的檢測?
恐怕沒有一種簡單的方法可以讓我們發佈的訓練模型在運行時忽略案例信息。所以,是的,他們通常只會標註大寫的名字。這將有可能訓練一個無條件的模型,它可以合理地工作(但不是以套用的文本爲例,因爲例子是英語中的一條重要線索(但不是德語,中文,阿拉伯語等)
修訂答案:我們現在正在爲我們的幾個工具發佈無故障模型,這些工具可以更好地運行在uncased文本上。 (雖然不如在套用文本上運行套管模型,因爲大寫確實提供了有用的英文信息!)您可以從這裏單獨下載它們:http://nlp.stanford.edu/software/CRF-NER.shtml。 – 2012-06-20 15:45:20
我們現在有一個truecaser。你現在可以在這裏找到這個問題更詳細的答案:https://stackoverflow.com/questions/45097507/how-to-recognize-a-named-entity-that-is-lowcase-such-as-kobe-科比逐corenlp/45122541#45122541 – 2017-10-06 00:56:50
沿和其他人的建議一樣,如果你使用的是基於特徵的分類器,我肯定會在人們的名字中加入100-200個最常見的3-4個字母的子字符串,或者在一個公認的特徵下添加一個gazzeteer。必然會在其他類型的詞中不常出現的個人名字中出現,比如「eli」。
問題有點舊,但其他人也許可以從中受益想法
可能訓練小寫分類器的一種方法是運行大寫的分類器,您已經擁有適合英語的大型數據集,然後處理標記的文本以刪除大小寫。然後你有一個標籤語料庫,你可以用它來訓練一個新的分類器。由於推文的特性,這種新的分類器對Twitter而言並不完美,但它是引導它的一種快速方法。
我知道這是一條古老的線索,但希望它能幫助別人。正如Christopher manning所回答的,檢測小寫字母的方法是用english.muc.7class.caseless.distsim.crf.ser.gz替換english.muc.7class.distsim.crf.ser.gz,當您解壓縮核心nlp無情jar文件。
例如,在我的Python的文件我一直都相同,只是將新的文件,它完美的作品(當然,大部分的時間)
st = NERTagger('/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/classifiers/english.muc.7class.caseless.distsim.crf.ser.gz', '/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/stanford-ner.jar')
- 1. 斯坦福NER
- 2. 斯坦福大學NER - MISC實體?
- 3. 如何使用斯坦福NER(命名實體識別器)的Python界面?
- 4. 斯坦福大學命名實體識別器(NER)功能與NLTK
- 5. NoSuchFieldError異常斯坦福NER
- 6. 斯坦福NER - 無法識別電話號碼
- 7. 斯坦福NLP訓練n-gram NER
- 8. 斯坦福NER:提取單獨的實體列表?
- 9. 斯坦福Corenlp:Regexner意外覆蓋NER實體
- 10. 斯坦福NER - 提取多個單詞實體
- 11. 斯坦福NER短語或複合實體
- 12. 如何訓練斯坦福NER包含空格的名稱?
- 13. 斯坦福大學NLP情緒分析與實體識別
- 14. 斯坦福數字名稱實體識別
- 15. Python中的斯坦福實體識別器(無案例)Nltk
- 16. 斯坦福命名實體識別器中的多項命名實體
- 17. 如何用「斯坦福命名實體識別器」(非CoreNLP)對中文進行7類NER
- 18. 是否可以訓練斯坦福NER系統識別更多命名實體類型?
- 19. 命名實體識別與NLTK或斯坦福NER使用自定義語料庫
- 20. 斯坦福NER - 哪裏是中國分類器「chinese.misc.diststim.crf.ser.gz」
- 21. 無法在斯坦福大學獲得輸出文件NER
- 22. 斯坦福CoreNLP刪除NUMBER實體
- 23. 斯坦福大學NER的位置信息
- 24. 斯坦福大學NLP網絡工具?
- 25. 斯坦福大學NLP - NER - 列車NER名稱有多個標記
- 26. 斯坦福NER分類器換行問題
- 27. 使用斯坦福NER從文本文檔中提取地址?
- 28. 用新術語擴展斯坦福NER術語
- 29. 姓名提取 - 簡歷/簡歷 - 斯坦福NER/OpenNLP
- 30. 聚焦命名實體識別(NER)?
你上標記的鳴叫培訓,或者是你試圖使用可能已經在newswire文本上進行過培訓的預先存在的模型? – 2010-12-15 00:38:57