2017-08-07 96 views
0

我有一個要求,從給定的文本中檢測公司名稱。我已經訓練了CRFClassifier,以及我的訓練數據和憲報數據。在訓練分類器後,當我使用測試數據時,要識別公司它沒有正確檢測。如果我給出了公司名稱,這是培訓數據的一部分,它能夠識別,如果我給出公司名稱是公報文件的一部分,它不能識別這些實體。你能幫助我嗎?我可以如何進一步做出正確的方向來識別實體。NER承認自定義實體

屬性的文件,我使用的是這個樣子的

trainFile =培訓data.tsv

serializeTo =自定義分類,model.ser.gz

地圖=字= 0,回答= 1

useClassFeature =真

useWord =真

useNGrams =真

noMidNGrams =真

maxNGramLeng = 6

usePrev =真

useNext =真

useSequences =真

usePrevSequences =真

maxLe FT = 1個

useTypeSeqs =真

useTypeSeqs2 =真

useTypeySequences =真

wordShape = chris2useLC

useDisjunctive =真

useGazettes =真

公報=公報。TXT

cleanGazette =真

樣本訓練數據文件

華寶公司

平公司

爲O

同意Ø

至O

獲取Ø

北Ø

卡羅萊納州Ø

  • Ø

O類

服務Ø

Gazzette文件數據文件

ACON公司

投資公司

LLS公司

郵報公司

橡公司

能源公司

投資公司

美林公司

證券公司

國際公司

永恆之塔公司

公司直接

新加坡公司

回答