2009-07-15 83 views
8

我使用mutual information gain作爲分裂函數來構建二進制分類樹。但是由於訓練數據偏向於幾個類別,因此建議每個訓練樣例的逆類別頻率加權。使用熵的加權決策樹

如何加權訓練數據?在計算估計熵的概率時,我是否需要加權平均值?

編輯:我想用於與所述權重熵的表達式。

+0

是不是你的加權因子是逆類? – 2009-07-17 20:05:34

+0

是的,正如在問題中提到的那樣,「建議按照逆類別頻率對每個訓練樣例進行加權。」 – Jacob 2009-07-17 20:08:29

回答

4

您引用的維基百科文章進入加權。它說:

加權變體
在的互信息的傳統制劑中,

alt text

每個事件或由(x,y)的指定的對象通過相應的概率p加權( X,Y)。這假定所有對象或事件與它們發生的可能性相同。然而,在某些應用中,某些對象或事件可能比其他對象或事件更爲重要,或者某些特定的關聯模式在語義上比其他語義更重要。

例如,確定性映射{(1,1),(2,2),(3,3)}可以比確定性映射{(1,3)被視爲強(由一些標準), (2,1),(3,2)},儘管這些關係會產生相同的相互信息。這是因爲互信息對變量值的任何固有排序都不敏感(Cronbach 1954,Coombs & Dawes 1970,Lockhead 1970),因此對相關變量之間的關係映射形式不敏感。如果需要,前者關係 - 顯示所有變量值一致 - 來判斷比後來的關係更強,那麼就可以使用下面的加權互信息(Guiasu 1977)

alt text

哪些地方關於每個變量值共現概率p(x,y)的權重w(x,y)。這允許某些概率可能比其他概率具有更多或更少的意義,從而允許量化相關的整體或prägnanz因子。在上面的例子中,對於w(1,1),w(2,2)和w(3,3)使用較大的相對權重將具有評估關係{(1,1), 2,2),(3,3)}比關於{(1,3),(2,1),(3,2)}的關係,這在某些模式識別的情況下可能是理想的,等等。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants