我正在爲我的一個項目嘗試apache打開NLP,我的要求是從電子郵件內容中檢測名詞並檢查我們的客戶數據庫(此數據庫由個人名稱,組織名稱等組成和我的搜索引擎是Solr基地)。apache openNLP chuker/POS名詞檢測
對於普通英語名詞,默認訓練模型可以正常工作(對於大多數情況),但 其中一個棘手的要求是,我們的企業組織有縮寫,如OK,LET等,因此在少數情況下我需要考慮OK,LET等作爲名詞。
舉個例子 1)「發送一些項目讓,請期待延誤付款」 2)「讓我們去聚會」
在#1我會考慮讓儘可能名詞和#2例LET不是名詞。
如果我能達到這個要求,我可以在搜索引擎中減少大量的誤報。
任何幫助,高度讚賞。
爲什麼不在處理後過濾掉壞的東西呢? – dfb 2012-04-23 03:06:43
我的客戶數據索引在Solr和傳入的電子郵件內容搜索索引作爲自由文本搜索,客戶數據每天都在變化....我不知道我是否完全得到您的建議....但我想建立一些規則就像在掃描後只考慮名詞基礎命中(忽略非名詞基礎命中) – Rushik 2012-04-23 03:28:23
在你的例子中,儘管LET仍然是一個名詞。你希望它被認爲不是一個名詞,因爲它是大寫的? – dfb 2012-04-23 03:50:54