2
當使用大約3000字的大文檔計算兩個詞之間的MI時,當我計算文檔中第一個不會重複的詞的概率時,它非常低且相同第二個字;這個低值影響聯合概率= p(x) * P(y)
,導致相互信息的值爲零或NaN。我怎樣才能避免這種情況?不常見的詞的相互信息
當使用大約3000字的大文檔計算兩個詞之間的MI時,當我計算文檔中第一個不會重複的詞的概率時,它非常低且相同第二個字;這個低值影響聯合概率= p(x) * P(y)
,導致相互信息的值爲零或NaN。我怎樣才能避免這種情況?不常見的詞的相互信息
最好的辦法可能是使用否定日誌概率,這將有助於避免下溢。請記住,p(x) * p(y)
與-log(p(x)) + -log(p(y))
相同。欲瞭解更多信息,請致電consult your friendly neighborhood Wikipedia。
我認爲你有一個概念問題。如果您的聯合是邊緣產品,則根據定義互信息爲0。 – Memming