鑑於bigram probabilities
對於文本中的單詞,如何計算trigram probabilities
?來自bigrams概率的計算三元概率
例如,如果我們知道P(dog cat) = 0.3
和P(cat mouse) = 0.2
我們如何找到P(dog cat mouse)
的概率是多少?
謝謝!
鑑於bigram probabilities
對於文本中的單詞,如何計算trigram probabilities
?來自bigrams概率的計算三元概率
例如,如果我們知道P(dog cat) = 0.3
和P(cat mouse) = 0.2
我們如何找到P(dog cat mouse)
的概率是多少?
謝謝!
在下面我考慮一個三元作爲三個隨機變量A,B,C
。所以dog cat horse
將是A=dog, B=cat, C=horse
。
使用連鎖規則:P(A,B,C) = P(A,B) * P(C|A,B)
。現在你卡住了,如果你想保持精確。
你可以做的是假設C
獨立於A
給出B
。那麼它認爲,P(C|A,B) = P(C|B)
。和P(C|B) = P(C,B)/P(B)
,你應該能夠從你的trigram頻率進行計算。請注意,在您的情況下,P(C|B)
應該是C
後面的概率 a B
,因此它是BC
除以B*
的概率的概率。
所以總結起來,使用條件獨立性假設時:
P(ABC) = P(AB) * P(BC)/P(B*)
並計算P(B*)
你要總結的概率爲所有的三元組以及B
開始。
感謝您的回答。我會標記爲最佳答案,我只是有一個問題。所以它是P(B,C)/ P(B),對吧?但爲什麼A的概率不在那裏使用? –
因爲它只適用於'P(C | B)'。所有添加到答案。 – ziggystar
你爲什麼要這麼做?這不太可能是一個真正的三元組概率的好估計。 「狗貓」之後可能還沒有第三個詞,根本沒有辦法從基於「給定兩個詞,這種組合出現X個Z時間」的概率中分辨出來「 – towr
我知道這不是一個好方法來獲得trigram的概率,但是有沒有某種方法可以估計給出的兩個概率的概率? –