不常見的詞的相互信息

當使用大約3000字的大文檔計算兩個詞之間的MI時，當我計算文檔中第一個不會重複的詞的概率時，它非常低且相同第二個字;這個低值影響聯合概率= p(x) * P(y)，導致相互信息的值爲零或NaN。我怎樣才能避免這種情況？不常見的詞的相互信息

我認爲你有一個概念問題。如果您的聯合是邊緣產品，則根據定義互信息爲0。 – Memming

-1

最好的辦法可能是使用否定日誌概率，這將有助於避免下溢。請記住，p(x) * p(y)與-log(p(x)) + -log(p(y))相同。欲瞭解更多信息，請致電consult your friendly neighborhood Wikipedia。

2013-04-09 16:44:24

回答