給定一個二元分類問題:如何在構建決策樹時查找分割點的熵?
有四個正例和5倍負的例子。因此,P(+)= 4/9和P( - )= 5/9。訓練樣例的熵是 -4/9 log2(4/9) - 5/9 log2(5/9)= 0.9911。
對於a3,這是一個連續的屬性,我想找到每個分割的信息增益。
所以我按升序對a3值進行排序並找到它們的分割點。但是,我如何計算它們的熵?
給出的答案是:
在上述圖像信息增益列就是0.9911 - 熵。
但是如何找到熵?
對熵的計算公式爲:
但我不理解如何使用這個公式來找到分割點的熵。
我認爲這個問題是更多地涉及交叉驗證(stats.stackexchange.com)。 – Hossein