我有一個要求,從給定的文本中檢測公司名稱。我已經訓練了CRFClassifier,以及我的訓練數據和憲報數據。在訓練分類器後,當我使用測試數據時,要識別公司它沒有正確檢測。如果我給出了公司名稱,這是培訓數據的一部分,它能夠識別,如果我給出公司名稱是公報文件的一部分,它不能識別這些實體。你能幫助我嗎?我可以如何進一步做出正確的方向來識別實體。NER承認自定義實體
屬性的文件,我使用的是這個樣子的
trainFile =培訓data.tsv
serializeTo =自定義分類,model.ser.gz
地圖=字= 0,回答= 1
useClassFeature =真
useWord =真
useNGrams =真
noMidNGrams =真
maxNGramLeng = 6
usePrev =真
useNext =真
useSequences =真
usePrevSequences =真
maxLe FT = 1個
useTypeSeqs =真
useTypeSeqs2 =真
useTypeySequences =真
wordShape = chris2useLC
useDisjunctive =真
useGazettes =真
公報=公報。TXT
cleanGazette =真
樣本訓練數據文件
華寶公司
平公司
爲O
同意Ø
至O
獲取Ø
北Ø
卡羅萊納州Ø
- Ø
O類
服務Ø
Gazzette文件數據文件
ACON公司
投資公司
LLS公司
郵報公司
橡公司
能源公司
投資公司
美林公司
證券公司
國際公司
永恆之塔公司
公司直接
新加坡公司