2015-02-06 32 views
0

我想用自己的標籤製作自己的NER分類器。我嘗試在http://nlp.stanford.edu/software/crf-faq.shtml#j中使用instuctions來訓練我的模型。但問題是我沒有太多的訓練數據。所以我想,如果有一種方法,我們可以在現有的分類器中添加我們自己的標籤,如english.all.3class.distsim.crf.ser,english.all.7class.distsim.crf.ser等。我可以訓練分類器我自己的標籤。斯坦福NER:如何在現有的NER模型中添加自己的標籤?

請在這方面幫助我。先謝謝你。

+0

你的標籤到底是什麼?它們是現有標籤的確定性映射嗎?超集/標籤的子集?那裏有多少? – 2015-02-07 03:12:35

+0

您是否建議重新註釋用於訓練內置分類器的所有NER數據? – 2015-02-07 03:12:54

回答

1

通過替換.tsv文件中的默認標籤(例如:PERS),您可以擁有任何標籤(例如:PERSON)。分類器會學習通過tsv文件提供的標籤,然後在您提供基於自定義標籤的模型時使用您提供的標籤進行標籤。

以簡 - 奧斯汀 - 艾瑪 - ch1.tsv的部分(從http://nlp.stanford.edu/software/ner-example/jane-austen-emma-ch1.tsv)文件,並把自己的自定義標籤訓練如下。我有兩個tags- PERSON和形容詞

CHAPTER O 
I O 
Emma PERSON 
Woodhouse PERSON 
, O 
handsome ADJECTIVE 
, O 
clever ADJECTIVE 
, O 
and O 
rich ADJECTIVE 
, O 
with O 
a O 
comfortable ADJECTIVE 

現在你可以養活這個TSV文件的分類(放在.prop文件此TSV文件名),並生成模型如圖所示如下─

java -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -prop ner.prop 

現在,讓我們測試任何文本文件的模型,並查看它是如何標註的。讓我們以下面的文本文件(toBeAnnotated.txt)

CHAPTER O 
I Emma Woodhouse, handsome, clever and rich, with a comfortable home and happy disposition, seemed to unite some of the best blessings 

運行以下命令來詮釋上面的文本文件 -

java -mx600m -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile toBeAnnotated.txt -outputFormat inlineXML 2> /dev/null 

我已經得到的輸出是(我已經添加了清晰換行符) -

I <PERSON>Emma Woodhouse</PERSON>, 
<ADJECTIVE>handsome</ADJECTIVE>, <ADJECTIVE>clever</ADJECTIVE> 
    and <ADJECTIVE>rich</ADJECTIVE>, with a <ADJECTIVE>comfortable</ADJECTIVE> 
home and happy <ADJECTIVE>disposition</ADJECTIVE>, 
seemed to unite some of the best blessings 
相關問題