你好的人我執行一個項目Stupid Backoff(第2頁,方程5)平滑技術我的工作,我必須就其執行的問題。這是NLP中使用的平滑算法,Good-Turing是我猜最熟悉的類似算法。愚蠢的退避實施澄清
算法的簡要描述: 當試圖找到這個詞的出現在一個句子中它會先看看上下文的單詞的n元水平,如果沒有正克的概率大小將遞歸到(n-1)圖並將其分數乘以0.4。遞歸在unigrams處停止。
所以如果我想在「陽光燦爛的日子」中找到「日」的概率,它首先會查看語料庫中是否存在三元組「陽光燦爛的日子」,如果不是這樣嘗試用兩字「陽光燦爛的日子」一樣,最終它只是得到「天」是由卵巢大小劃分的頻率(在訓練數據字的總數)。
我的問題是:我每一次我減少正克的大小時乘以0.4的分數?
所以,如果我們不能夠找到一個三克或每克最終比分將是上面的例子:
0.4 * 0.4 *頻率(天)/ corpus_size?
還是我只是在最後一級倍增曾經那麼不管我有多少回退,使我剛乘最後得分0.4?
是的,你每次乘 – 2013-05-05 15:50:39