2013-12-14 149 views
2

鑑於bigram probabilities對於文本中的單詞,如何計算trigram probabilities來自bigrams概率的計算三元概率

例如,如果我們知道P(dog cat) = 0.3P(cat mouse) = 0.2

我們如何找到P(dog cat mouse)的概率是多少?

謝謝!

+0

你爲什麼要這麼做?這不太可能是一個真正的三元組概率的好估計。 「狗貓」之後可能還沒有第三個詞,根本沒有辦法從基於「給定兩個詞,這種組合出現X個Z時間」的概率中分辨出來「 – towr

+0

我知道這不是一個好方法來獲得trigram的概率,但是有沒有某種方法可以估計給出的兩個概率的概率? –

回答

3

在下面我考慮一個三元作爲三個隨機變量A,B,C。所以dog cat horse將是A=dog, B=cat, C=horse

使用連鎖規則:P(A,B,C) = P(A,B) * P(C|A,B)。現在你卡住了,如果你想保持精確。

你可以做的是假設C獨立於A給出B。那麼它認爲,P(C|A,B) = P(C|B)。和P(C|B) = P(C,B)/P(B),你應該能夠從你的trigram頻率進行計算。請注意,在您的情況下,P(C|B)應該是C後面的概率 a B,因此它是BC除以B*的概率的概率。

所以總結起來,使用條件獨立性假設時:

P(ABC) = P(AB) * P(BC)/P(B*) 

並計算P(B*)你要總結的概率爲所有的三元組以及B開始。

+0

感謝您的回答。我會標記爲最佳答案,我只是有一個問題。所以它是P(B,C)/ P(B),對吧?但爲什麼A的概率不在那裏使用? –

+1

因爲它只適用於'P(C | B)'。所有添加到答案。 – ziggystar