我正在嘗試使用Apache OpenNLP識別文本中的日期實體。我創建的生成使用日期的範圍在下面的格式的標記一點java程序:Apache OpenNLP名稱實體發現者識別錯誤的單詞
<START:date> {dd/MM/yyyy} <END> .
每個標籤是在由OpenNLP定義的格式的句子。
我生成了約400k條目並訓練了模型。訓練結束後,我嘗試通過命令行使用TokenNameFinder來驗證一切是否正常,但對於每個單詞,我鍵入查找器將其標識爲已過期的實體。例如,當我輸入:
today is 17/04/2017
什麼,我得到的是:
<START:date> today <END> <START:date> is <END> <START:date> 17/04/2017 <END>
我想這可能是我沒有提供任何字除了日期,所以我試圖用一個隨機字符串在標籤之前和之後,但訓練時間是永久的。
任何人都可以告訴我,如果這是我的訓練數據集或我必須做的其他事情的問題?
你能提供一小段訓練數據嗎?另外,複製命令行或您用於培訓的代碼。韓國社交協會。 – wcolen