通過替換.tsv文件中的默認標籤(例如:PERS),您可以擁有任何標籤(例如:PERSON)。分類器會學習通過tsv文件提供的標籤,然後在您提供基於自定義標籤的模型時使用您提供的標籤進行標籤。
以簡 - 奧斯汀 - 艾瑪 - ch1.tsv的部分(從http://nlp.stanford.edu/software/ner-example/jane-austen-emma-ch1.tsv)文件,並把自己的自定義標籤訓練如下。我有兩個tags- PERSON和形容詞
CHAPTER O
I O
Emma PERSON
Woodhouse PERSON
, O
handsome ADJECTIVE
, O
clever ADJECTIVE
, O
and O
rich ADJECTIVE
, O
with O
a O
comfortable ADJECTIVE
現在你可以養活這個TSV文件的分類(放在.prop文件此TSV文件名),並生成模型如圖所示如下─
java -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -prop ner.prop
現在,讓我們測試任何文本文件的模型,並查看它是如何標註的。讓我們以下面的文本文件(toBeAnnotated.txt)
CHAPTER O
I Emma Woodhouse, handsome, clever and rich, with a comfortable home and happy disposition, seemed to unite some of the best blessings
運行以下命令來詮釋上面的文本文件 -
java -mx600m -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile toBeAnnotated.txt -outputFormat inlineXML 2> /dev/null
我已經得到的輸出是(我已經添加了清晰換行符) -
I <PERSON>Emma Woodhouse</PERSON>,
<ADJECTIVE>handsome</ADJECTIVE>, <ADJECTIVE>clever</ADJECTIVE>
and <ADJECTIVE>rich</ADJECTIVE>, with a <ADJECTIVE>comfortable</ADJECTIVE>
home and happy <ADJECTIVE>disposition</ADJECTIVE>,
seemed to unite some of the best blessings
你的標籤到底是什麼?它們是現有標籤的確定性映射嗎?超集/標籤的子集?那裏有多少? – 2015-02-07 03:12:35
您是否建議重新註釋用於訓練內置分類器的所有NER數據? – 2015-02-07 03:12:54