2015-01-07 69 views
2

我想訓練模型提取人名(NER系統的一部分),但我想使這個模型無caseless(我的意思是模型不會考慮字母大小寫,大寫之間沒有區別和小寫字母),因爲我有嘈雜的文字。火車無人模型NER在openNLP

那麼在訓練步驟中是否有任何參數可以做到這一點,或者任何其他方式?

回答

2

如果您必須使用OpenNLP,我想您可以培訓新的模型的無案例培訓數據。在培訓新模型之前,只需拿出現有的任何培訓數據(包括適當的註釋等)並將所有內容小寫即可。

或者,如果你可以用它代替OpenNLP斯坦福NER,你可以使用斯坦福NER的預先訓練的無殼英語型號:http://nlp.stanford.edu/software/CRF-NER.shtml#Models

你去哪種方式,請記住,你的準確度將通過使用無殼減少楷模。

+0

斯坦福NER用於無情模型的是什麼? ,我通過openNLP培訓的無案模型與斯坦福無案模型無法比擬。斯坦福NER爲人名提取提供了非常好的結果。 –

+0

斯坦福大學NER的無案例模型簡單地說是三種正規英語斯坦福NER模型的無例外模型(即,小型):爲CoNLL訓練的4級模型,爲MUC訓練的7級模型,以及在路口訓練的3級模型兩個數據集。你可以在這裏下載無病例模型:http://nlp.stanford.edu/software/stanford-corenlp-caseless-2014-02-25-models.jar –

+0

我已經嘗試過了,但我想知道爲什麼斯坦福NER會給出更好的結果結果比openNLP NER,我的意思是它們之間的主要區別是什麼?非常感謝@Charlie的幫助。 –

相關問題