我剛剛使用OpenNLP
作爲一個小程序,我應該把段落分成幾個句子。OpenNLP - 即使用縮寫字典,訓練仍然需要縮寫嗎?
儘管在閱讀完一些文檔並完成測試用例之後我能完成任務,但我仍然不得不注意到,即使創建了所有縮寫(例如Yahoo!)一個自定義的縮寫字典,將它傳遞給SentenceDetectorFactory
並用它來訓練SentenceDetectorME
。
我正在使用與此test case中使用的類似方法。
我在他們的文檔中找不到這種行爲,也找不到任何解釋。有什麼我失蹤?
編輯:我的問題
雖然我仍然在做一個培訓,我的工作在域設置爲合適的工作,我的測試數據從非結構化數據來從網頁的說明。有時它包含一個我的團隊成員都沒有預料到的縮寫。例如。
Company (acq. by another company) is a good company.
在這種情況下,我們從來沒有認爲這個詞acquired
發生像acq.
這顯然是作爲一個縮寫。
現在我們可以添加acq.
作爲縮寫,並讓模型繼續工作,如廣告所示,或者訓練模型。但是,即使在縮寫字典中添加之後,它也不會被當作縮寫來處理,而我們最終爲這個縮寫形成了訓練模型。這看起來像是一個偏離字典縮寫的概念。
我在NLTK
與PunktSentenceTokenizer
like this one嘗試了一個小例子,它完美的工作。
我不確定我是否有一套甚至有25,000個句子的訓練集,如果OpenNLP
忽略縮寫詞典,它將有所作爲。
是的,Opennlp是不可預知的!我現在不知道該怎麼做! -.- 你是否通過[this](http://atigeo.com/blog/2016/article-title-2)? –
是的,我已經有了。我會在創建至少15,000個培訓樣本時回覆。 –