「共識」其中最大熵分類

假設我們有三類：A，B和C，和我們歸類文檔「d」使用標準的最大墒分類，並提出了以下可能性：「共識」其中最大熵分類

P(d, A) = 0.50 
P(d, B) = 0.25 
P(d, C) = 0.25

我覺得這是非常不同的，在某種程度上，從這一組概率：

P(d, A) = 0.50 
P(d, B) = 0.49 
P(d, C) = 0.01

有沒有辦法將比分這兩者之間的區別？

您面臨的問題通常稱爲分類器中的「共識」。由於多標記MaxEnt可以被看作N個獨立的分類器，因此您可以將其視爲一組「不同類別的投票」模型。

現在，有兩種計算這樣的「共識」的許多措施，其中包括：

一般而言，您應該考慮檢測所得分佈的「一致性」（不那麼自信的決定）或「尖峯」（表示更有信心的分類）的方法。

2013-12-08 14:57:36 lejlot

熵值爲+1。有趣的事實：Max Ent分類器被這樣調用的原因是他們試圖在尊重訓練數據的同時最大化P（輸出）的熵。在某種程度上，分類器試圖找到與訓練數據一致的最無偏概率分佈。 – mbatchkarov

統一性是錯誤的事情---糟糕的概率模型往往可以提供非常尖銳的後輩，這是完全不正確的。你需要通過交叉熵（KLDivergence，如你所建議的）來參考正確的後驗，以確保你的分佈是正確的。畢竟，統一的後輩實際上可能是準確的...... –

你在找什麼是交叉熵：具體來說，你想計算用分類器輸出的一個輸出來逼近真實分佈的成本。概率多分類分類器將在很多情況下直接對其進行優化。看看this。

2013-12-09 12:18:26

回答