假設我們有三類:A,B和C,和我們歸類文檔「d」使用標準的最大墒分類,並提出了以下可能性:「共識」其中最大熵分類
P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25
我覺得這是非常不同的,在某種程度上,從這一組概率:
P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01
有沒有辦法將比分這兩者之間的區別?
假設我們有三類:A,B和C,和我們歸類文檔「d」使用標準的最大墒分類,並提出了以下可能性:「共識」其中最大熵分類
P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25
我覺得這是非常不同的,在某種程度上,從這一組概率:
P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01
有沒有辦法將比分這兩者之間的區別?
您面臨的問題通常稱爲分類器中的「共識」。由於多標記MaxEnt可以被看作N個獨立的分類器,因此您可以將其視爲一組「不同類別的投票」模型。
現在,有兩種計算這樣的「共識」的許多措施,其中包括:
一般而言,您應該考慮檢測所得分佈的「一致性」(不那麼自信的決定)或「尖峯」(表示更有信心的分類)的方法。
你在找什麼是交叉熵:具體來說,你想計算用分類器輸出的一個輸出來逼近真實分佈的成本。概率多分類分類器將在很多情況下直接對其進行優化。看看this。
熵值爲+1。有趣的事實:Max Ent分類器被這樣調用的原因是他們試圖在尊重訓練數據的同時最大化P(輸出)的熵。在某種程度上,分類器試圖找到與訓練數據一致的最無偏概率分佈。 – mbatchkarov
統一性是錯誤的事情---糟糕的概率模型往往可以提供非常尖銳的後輩,這是完全不正確的。你需要通過交叉熵(KLDivergence,如你所建議的)來參考正確的後驗,以確保你的分佈是正確的。畢竟,統一的後輩實際上可能是準確的...... –