2015-05-14 71 views
6

在OpenNLP培訓中,cut-offiteration的含義是什麼?或者就此而言,自然語言處理。我只需要一個外行人對這些條款的解釋。就我的想法而言,迭代是算法重複和切斷的次數,如果文本的值高於某個特定類別的值,它將被映射到該類別。我對嗎?OpenNLP中的「cut-off」和「iteration」是什麼意思?

回答

12

正確的,術語迭代迭代算法,其中一個規定了通過連續地產生的一些「理想」溶液(希望日益更準確)的近似解決問題的一般概念。一般而言,迭代次數越多,結果越準確(「越好」),但當然需要執行更多的計算步驟。

術語截止(又名截止頻率)被用於指定降低的的n-gram語言模型大小(13759 OpenNLP,例如其一部分的詞性標註器)的方法。考慮下面的例子:

Sentence 1 = "The cat likes mice." 
Sentence 2 = "The cat likes fish." 
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1} 

如果在這個例子中設置的截止頻率爲1時,n元語法模型將減少到

Bigram model = {"the cat" : 2, "cat likes" : 2} 

即,切斷方法從語言中刪除對那些在訓練數據中很少出現的n-gram進行建模。減少n-gram語言模型的大小有時是必要的,因爲甚至bigrams的數量(更不用說trigrams,4-gram等)爲更大的語料庫而爆炸。然後可以使用重新生成信息(n-gram計數)來統計估計字(或其POS標籤)在給定前 字(或POS標籤)的情況下的概率。