我建立一個命名實體識別與條件隨機場,我期待兩兩件事:命名實體識別數據和功能
A)一個開源的,英語NER數據集的人,地點和組織機構
B)英語NER的功能列表
我已經看了看CoNLL-2003語料庫,發現這正是我想要的,但它是不容易買到。我一直沒有找到NER功能列表;我試圖避免必須手動設計這些功能。
感謝
我建立一個命名實體識別與條件隨機場,我期待兩兩件事:命名實體識別數據和功能
A)一個開源的,英語NER數據集的人,地點和組織機構
B)英語NER的功能列表
我已經看了看CoNLL-2003語料庫,發現這正是我想要的,但它是不容易買到。我一直沒有找到NER功能列表;我試圖避免必須手動設計這些功能。
感謝
A)除了MUC語料,你應該檢查出的手動註釋子語料庫這裏:http://www.americannationalcorpus.org/MASC/About.html它是免費的,有各種各樣的文件類型。它自帶的工具用於解析在NLTK,GATE和UIMA格式:http://www.anc.org/MASC/Download
B)這是一個非常普遍的問題。您可以嘗試正克,字大寫,使用文字字符串作爲演講的特徵,部分等你可以閱讀與CRF斯坦福解析器方法入手:http://nlp.stanford.edu/software/CRF-NER.shtml
你會發現什麼是需要從Ratinov &羅斯在this paper NER一個總結和非常豐富的研究。另外,他們的系統是完全開源的,並且包括從維基百科收集的命名實體列表。
因此,我認爲你正在尋找免費的東西,對吧? :)我想這個清單上可能會有一些幫助:http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html – dmn 2013-02-25 20:21:02