使用熵的加權決策樹

我使用mutual information gain作爲分裂函數來構建二進制分類樹。但是由於訓練數據偏向於幾個類別，因此建議每個訓練樣例的逆類別頻率加權。使用熵的加權決策樹

如何加權訓練數據？在計算估計熵的概率時，我是否需要加權平均值？

編輯：我想用於與所述權重熵的表達式。

2009-07-15 Jacob

是不是你的加權因子是逆類？ – 2009-07-17 20:05:34

是的，正如在問題中提到的那樣，「建議按照逆類別頻率對每個訓練樣例進行加權。」 – Jacob 2009-07-17 20:08:29

國有值加權熵作爲投資風險的度量。
http://www56.homepage.villanova.edu/david.nawrocki/State%20Weighted%20Entropy%20Nawrocki%20Harding.pdf

來源

2009-07-17 20:16:58

您引用的維基百科文章進入加權。它說：

加權變體
在的互信息的傳統制劑中，

$alt text$

每個事件或由（x，y）的指定的對象通過相應的概率p加權（ X，Y）。這假定所有對象或事件與它們發生的可能性相同。然而，在某些應用中，某些對象或事件可能比其他對象或事件更爲重要，或者某些特定的關聯模式在語義上比其他語義更重要。

例如，確定性映射{（1,1），（2,2），（3,3）}可以比確定性映射{（1,3）被視爲強（由一些標準），（2,1），（3,2）}，儘管這些關係會產生相同的相互信息。這是因爲互信息對變量值的任何固有排序都不敏感（Cronbach 1954，Coombs & Dawes 1970，Lockhead 1970），因此對相關變量之間的關係映射形式不敏感。如果需要，前者關係 - 顯示所有變量值一致 - 來判斷比後來的關係更強，那麼就可以使用下面的加權互信息（Guiasu 1977）

$alt text$

哪些地方關於每個變量值共現概率p（x，y）的權重w（x，y）。這允許某些概率可能比其他概率具有更多或更少的意義，從而允許量化相關的整體或prägnanz因子。在上面的例子中，對於w（1,1），w（2,2）和w（3,3）使用較大的相對權重將具有評估關係{（1,1）， 2,2），（3,3）}比關於{（1,3），（2,1），（3,2）}的關係，這在某些模式識別的情況下可能是理想的，等等。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

來源

2009-07-15 18:19:41

使用熵的加權決策樹

回答

相關問題