2013-12-08 20 views
2

假設我們有三類:A,B和C,和我們歸類文檔「d」使用標準的最大墒分類,並提出了以下可能性:「共識」其中最大熵分類

P(d, A) = 0.50 
P(d, B) = 0.25 
P(d, C) = 0.25 

我覺得這是非常不同的,在某種程度上,從這一組概率:

P(d, A) = 0.50 
P(d, B) = 0.49 
P(d, C) = 0.01 

有沒有辦法將比分這兩者之間的區別?

回答

3

您面臨的問題通常稱爲分類器中的「共識」。由於多標記MaxEnt可以被看作N個獨立的分類器,因此您可以將其視爲一組「不同類別的投票」模型。

現在,有兩種計算這樣的「共識」的許多措施,其中包括:

  • 「天真」的保證金計算 - 裕大 - 的「中獎」類的概率,第二個區別 - 更自信分類
  • 熵 - 較小所得概率分佈的熵,將更有信心決定
  • 涉及KL散度等一些其它方法

一般而言,您應該考慮檢測所得分佈的「一致性」(不那麼自信的決定)或「尖峯」(表示更有信心的分類)的方法。

+0

熵值爲+1。有趣的事實:Max Ent分類器被這樣調用的原因是他們試圖在尊重訓練數據的同時最大化P(輸出)的熵。在某種程度上,分類器試圖找到與訓練數據一致的最無偏概率分佈。 – mbatchkarov

+0

統一性是錯誤的事情---糟糕的概率模型往往可以提供非常尖銳的後輩,這是完全不正確的。你需要通過交叉熵(KLDivergence,如你所建議的)來參考正確的後驗,以確保你的分佈是正確的。畢竟,統一的後輩實際上可能是準確的...... –

1

你在找什麼是交叉熵:具體來說,你想計算用分類器輸出的一個輸出來逼近真實分佈的成本。概率多分類分類器將在很多情況下直接對其進行優化。看看this