2012-09-09 65 views
2

當使用大約3000字的大文檔計算兩個詞之間的MI時,當我計算文檔中第一個不會重複的詞的概率時,它非常低且相同第二個字;這個低值影響聯合概率= p(x) * P(y),導致相互信息的值爲零或NaN。我怎樣才能避免這種情況?不常見的詞的相互信息

+1

我認爲你有一個概念問題。如果您的聯合是邊緣產品,則根據定義互信息爲0。 – Memming

回答

-1

最好的辦法可能是使用否定日誌概率,這將有助於避免下溢。請記住,p(x) * p(y)-log(p(x)) + -log(p(y))相同。欲瞭解更多信息,請致電consult your friendly neighborhood Wikipedia